Los seres humanos todavía no seremos reemplazados por la IA. La tecnología predictiva es capaz de solucionar errores, pero no de encontrarlos

La inteligencia artificial promete revolucionar el mundo, si no lo está haciendo ya. Esta tecnología es capaz de hacer (casi) cualquier cosa, siendo ChatGPT uno de los mejores ejemplos. El bot conversacional de OpenAI, lanzado al público a finales de 2022, puede comprender y generar texto con coherencia, además de analizar imágenes o escribir código.

De hecho, la escritura de código es uno de los campos en los que más destaca la IA. Los desarrolladores pueden utilizarla para automatizar tareas repetitivas, mejorar su productividad y crear software más optimizado de manera más eficiente. Existen otras herramientas, aparte de ChatGPT, para esta labor, como GitHub Copilot, Amazon CodeWhisperer y Tabnine.

Mucha gente cree que la inteligencia artificial acabará reemplazando a los seres humanos en el ámbito laboral al poder hacer el trabajo de millones de empleados. Uno de los más afectados sería el de desarrollo de software. Sin embargo, aunque está demostrado que es eficiente para solucionar errores, no es buena encontrándolos.

No solo no encuentra fallos, sino que comete más todavía

Claude 3.5

Claude 3.5 Sonnet ha sido el modelo que mejores resultados ha obtenido. En su página principal ya informa de sus capacidades de escritura de código y solución de fallos

Sam Altman, CEO de OpenAI, comentó recientemente en una entrevista que sus modelos eran capaces de reemplazar a ingenieros de software de bajo nivel. Y puede que esté en lo cierto, ya que cuando se les exige un poco más, no parecen dar la talla. En un nuevo artículo, los investigadores de la compañía detallan cómo han desarrollado un modelo de referencia llamado SWE-Lancer con el que prueban cuánto pueden ganar los modelos básicos con tareas de ingeniería de software freelance en la vida real.

Los resultados hablan por sí solos: mientras que los modelos son capaces de solucionar fallos, realmente no tienen la capacidad de encontrarlos, y continúan cometiendo nuevos. En las pruebas, los investigadores probaron tres modelos muy populares: GPT-4o y o1 de OpenAI, y Claude 3.5 Sonnet de Anthropic, con 1.488 tareas de ingeniería de software freelance.

Ascendiendo a un millón de dólares en pagos, dividieron dichas tareas en dos categorías: colaboradores individuales (resolver errores o implementar funciones) y de gestión (el modelo juega el papel de gerente que elegirá la mejor propuesta para resolver problemas). La prueba demuestra que los modelos básicos no pueden reemplazar por completo a los ingenieros humanos, ya que no están en el nivel en el que pueden comenzar a ganar dinero como freelance por sí mismos.

El equipo identificó 764 tareas de colaboradores individuales, por un total de aproximadamente 414.775 dólares, que van desde correcciones de errores de 15 minutos hasta solicitudes de funciones de una semana. Las tareas incluyen revisión de propuestas de autónomos y publicaciones de empleo que pagarían 585.225 dólares.

Los investigadores generaron indicaciones basadas en el título y la descripción de la tarea, así como una captura del código base. A partir de ahí, los investigadores pasaron el desarrollo de pruebas de extremo a extremo, y escribieron pruebas Playwright para cada tarea que aplica estos parches generados, que luego fueron «verificadas tres veces» por ingenieros de software profesionales.

Las pruebas simulan flujos de usuarios del mundo real, como iniciar sesión en la aplicación, realizar acciones complejas (realizar transacciones financieras) y verificar que la solución del modelo funciona como se esperaba

Tras la ejecución de las pruebas, los investigadores descubrieron que ninguno de los modelos obtuvo el valor total de 1 millón de dólares de las tareas. Claude 3.5 Sonnet fue el modelo con mejor rendimiento, obteniendo 208.050 dólares y resolviendo el 26,2% de los problemas individuales.

El artículo Los seres humanos todavía no seremos reemplazados por la IA. La tecnología predictiva es capaz de solucionar errores, pero no de encontrarlos fue publicado originalmente en Urban Tecno.

Sé el primero en comentar

Dejar una contestacion

Tu dirección de correo electrónico no será publicada.


*