Este complicadísimo test sirve para saber si una inteligencia artificial es tan avanzada que puede causar «daños catastróficos»

Parece que, tarde o temprano, la inteligencia artificial va a acabar salpicando todo lo que nos rodea. Ya no es que esté presente hasta en las impresoras del hogar y la oficina para ofrecer mejores impresiones, sino que se está utilizando también en deportes como el tenis para sustituir a los árbitros, y países como Japón para combatir su baja natalidad con una aplicación con IA que solucione el problema.

Las posibilidades de la inteligencia artificial aumentan día tras día. Los modelos son cada vez más inteligentes, valga la redundancia, lo que les permite realizar razonamientos más difíciles y tratar temas más diversos, como es el caso de ChatGPT y su reciente pero importante actualización que lo lleva un paso más allá.

Esto ha provocado algún que otro susto. Hace unos días, AI Scientist, una inteligencia artificial diseñada para llevar a cabo investigaciones científicas de manera autónoma, consiguió reescribir su código. Y para evitar que esto vuelva a suceder y provoque un incidente verdaderamente grave, han desarrollado un test para saber si una IA sería capaz de provocar «daños catastróficos».

75 pruebas para comprobar si una inteligencia artificial puede reprogramarse a sí misma

OpenAI, la empresa tras el desarrollo del bot conversacional ChatGPT, ha elaborado un test que es capaz de medir si una inteligencia artificial puede modificar su propio código y mejorar sus capacidades/funciones sin necesitar instrucciones ordenadas por el ser humano, volviéndose así completamente autónoma.

Este test, llamado MLE-bench está formado por una compilación de 75 pruebas de Kaggle (subsidiaria de Google; una comunidad en línea de científicos de datos y profesionales del aprendizaje automático que permite a los usuarios encontrar y publicar conjuntos de datos, explorar y crear modelos), y cada una de ellas es un desafío complicado que evalúa su desempeño.

Los científicos de OpenAI diseñaron el benchmark para ver qué tan bien se desempeñan los modelos de IA en «ingeniería de aprendizaje automático autónomo», que es una de las pruebas más díficil a las que se puede enfrentar una inteligencia artificial. Todos los detalles están recogidos en un artículo publicado en la base de datos arXiv.

Si una inteligencia artificial obtiene una buena puntuación en las 75 pruebas del MLE-bench, podría considerarse lo suficientemente potente como para ser un sistema de inteligencia general artificial (por sus siglas en inglés, AGI). Una inteligencia artificial general es un tipo hipotético de inteligencia artificial que iguala o excede la inteligencia humana promedio.

Una inteligencia artificial general sería capaz de realizar cualquier tarea intelectual que los seres humanos o los animales llevamos a cabo actualmente. Es la base sobre varias obras de ciencia ficción y diversos estudios. Varias compañías, como OpenAI o DeepMind, tienen la creación de esta IA como objetivo.

Las 75 pruebas del MLE-bench tiene un valor práctico en el mundo real. Dos ejemplos son OpenVaccine, para encontrar una vacuna de ARNm para la COVID-19, y el Desafío Vesubio, que tiene como objetivo descifrar pergaminos antiguos que requerirían de ciertos estudios previos por los humanos para poder entenderlos.

La capacidad de los agentes para realizar investigaciones de alta calidad podría marcar un paso transformador en la economía. Sin embargo, los agentes capaces de realizar tareas de investigación de machine learning abiertas, al nivel de mejorar su propio código de entrenamiento, podrían mejorar las capacidades de los modelos de frontera. Si las innovaciones se producen más rápido que nuestra capacidad para comprender sus impactos, corremos el riesgo de desarrollar modelos capaces de causar daños catastróficos

Los científicos pusieron a prueba el modelo más potente de OpenAI, el o1, que se llevó algo así como la medalla de bronce por sus resultados de 16,9% en las pruebas. Sin embargo, esta cifra mejoraba cada vez que se volvía a someter a la inteligencia artificial a ellas.

Este resultado equivale a estar entre el 40% de los mejores participantes humanos en la clasificación de Kaggle. Y es que el o1 logró una media de siete medallas de oro en las pruebas MLE-bench, que son dos más de las que se necesita para ser considerado un «Gran Maestro Kaggle». Sólo dos humanos han logrado medallas en los 75 retos.

Los investigadores tras el MLE-bench van a ponerlo al alcance de todos los interesados para que puedan poner a prueba sus inteligencias artificiales. La posibilidad de que exista una IA autónoma llega a ser terrorífica, sobre todo sabiendo que algunos magnates de Silicon Valley creen que acabará realizando el 80% del trabajo de los humanos en no mucho tiempo.

El artículo Este complicadísimo test sirve para saber si una inteligencia artificial es tan avanzada que puede causar «daños catastróficos» fue publicado originalmente en Urban Tecno.

Este complicadísimo test sirve para saber si una inteligencia artificial es tan avanzada que puede causar «daños catastróficos»

75 pruebas para comprobar si una inteligencia artificial puede reprogramarse a sí misma

Sé el primero en comentar

Dejar una contestacion Cancelar la respuesta