Nuevas compañías habrían utilizado las transcripciones de los vídeos de YouTube para entrenar a sus IA

Llevamos años hablándote de las bondades de la inteligencia artificial, mostrándote películas donde la IA es protagonista y enseñándote plataformas que dan usos interesantes a esta tecnología. Sin embargo, cuando empezamos a indagar en la trastienda de la IA, parece que existen muchos motivos para pensar que los avances en este sector tienen un lado oculto que empieza a ser desvelado.

Nuevos indicios que apuntan al uso de información sin consentimiento para entrenar nuevas IA

Una reciente investigación publicada por el estudio de noticias Proof expone a Apple, Nvidia y Anthropic como protagonistas de una nueva polémica relativa al entrenamiento de sus respectivos modelos de inteligencia artificial.

En este caso, la compañía EleutherAI fue la encargada de crear un conjunto de datos, que después fue utilizado por las compañías mencionadas para entrenar a sus modelos de IA. El problema es que dentro de estos datos se encuentran transcripciones de vídeos de YouTube, además de transcripciones de otras compañías como Khan Academy, MIT, Harvard, The Wall Street Journal o BBC.

La investigación realizada por Proof asegura que son un total de 173.536 vídeos los que se incluyen en estas transcripciones, obtenidos a partir de más de 48.000 canales. De hecho, la organización afirma que entre los canales cuyos vídeos han ayudado a entrenar a los modelos de IA de Apple, Nvidia y Anthropic se encuentran creadores de contenido tan importantes como MrBeast, Marques Brownlee o PewDiePie.

De hecho, como dato curioso, si entras en el artículo de Proof que te hemos enlazado anteriormente, podrás encontrar un cuadro de búsqueda para poder investigar si un canal de YouTube en concreto se encuentra dentro del conjunto de datos que recopiló EleutherAI y que ofertó al mejor postor. Por cierto, el canal de YouTube de Urban Tecno no ha sido utilizado para este fin.

Algunos creadores han opinado acerca de este espinoso asunto, como es el caso de David Pakman, presentador de ‘The David Pakman Show’, un programa de política con más de 2 millones de suscriptores. David ha declarado, visiblemente enfadado, que:

Nadie ha venido y me ha dicho: ‘Querríamos utilizar esto’. Este es mi sustento y gasto mi tiempo, recursos, dinero y el tiempo de mis empleados para crear este contenido.

Por el momento, EleutherAI no se ha pronunciado al respecto de este asunto. Sabemos que el conjunto de datos forma parte de una compilación de mayor tamaño denominada ‘The Pile’, cuyos datos parece que son accesibles a quien quiera curiosear y tenga la potencia de procesamiento necesaria en su equipo y la memoria suficiente como para aventurarse a investigarlos.

El artículo Nuevas compañías habrían utilizado las transcripciones de los vídeos de YouTube para entrenar a sus IA fue publicado originalmente en Urban Tecno.

Sé el primero en comentar

Dejar una contestacion

Tu dirección de correo electrónico no será publicada.


*