OpenAI utiliza un millón de horas de vídeos de YouTube para entrenar GPT-4

Uno de los aspectos que, dada la explosión de popularidad de… inteligencia artificial generativa es el origen de los datos que las empresas tecnológicas han utilizado para entrenar sus respectivas herramientas y chatbots.

Incluso antes de que saliera ChatGPT (hace casi un año y medio), Numerosos diseñadores gráficos habían denunciado los chatbots con IA. que sirvieron para “crear” imágenes –como DALL·E, Midjourney o Stable Diffusion– recogieron sus obras para generar imágenes a partir de sus respectivos estilos artísticos.

Cuando la herramienta desarrollada por OpenAI y respaldada por Microsoft salió al mercado, lo mismo ocurrió con escritores tan reconocidos como Margaret Atwood, Dan Brown o George RR Martin; con medios como New York Times; e incluso con algunos desarrolladores y expertos en programación.

Las propias empresas de inteligencia artificial se han dado cuenta de que están utilizando bots Spider para recopilar información publicada en Internet, técnica conocida en inglés como “spider”. Raspar y que es utilizado por gigantes como Google para indexar el contenido que aparece en su buscador.

Sam Altman, director ejecutivo de OpenAI.

«Buscaron en Internet y se alimentaron de información de todos los involucrados.“, resumió Marc Almeida, programador y experto en ciberseguridad, en una entrevista de hace un año Business Insider en el que denunciaba la forma en que estas empresas habían utilizado “un paradigma de acción yanqui”: “Muévete rápido y rompe cosascuya traducción en español sería: “Es mejor pedir perdón que permiso”.

La última información publicada sobre el desarrollador de ChatGPT apunta en esta dirección. Al parecer, como advirtió el propio YouTube en relación con un artículo periodístico La informaciónOpenAI habría utilizado los vídeos de la propia plataforma de Google para entrenar los modelos de IA escondidos detrás de sus chatbots.

Así lo recogió El bordeque se hace eco de un informe detallado publicado este fin de semana por el New York Times en el que se informa que la startup respaldada por Microsoft había utilizado su modelo de transcripción de audio Whisper Transcribiendo más de un millón de horas de videos de YouTube con el objetivo de entrenar GPT-4.

Al parecer OpenAI era consciente de que esta práctica era legalmente cuestionable, pero la consideró un uso legítimo de este contenido. Greg BrockmanEl presidente de OpenAI (que casi deja la empresa junto con Sam Altman en noviembre) participó personalmente en la elaboración de los vídeos utilizados. New York Times.

La portavoz del desarrollador de ChatGPT, Lindsay Held, dijo El borde que la startup mantiene conjuntos de datos «únicos» para cada uno de sus modelos, con el objetivo de «mejorar su comprensión del mundo» y mantener su competitividad en la investigación global.

Held añadió que OpenAI “utiliza numerosas fuentes, incluidos datos disponibles públicamente y asociaciones para datos no públicos”, y que está explorando la posibilidad de generar sus propios datos sintéticos.

Algunos analistas, como el profesor Mark Andrejevic de la Universidad de Monash (Australia), lo han señalado Esto demuestra que “no sólo autores o artistas conocidos alimentan las bases de datos”.. Es cualquiera que haya publicado algo en Internet. «Estos sistemas representan la captura de nuestra producción cultural y social colectiva: deberían ser de propiedad pública y estar bajo control público», afirmó Andrejevic.

El periodista por su parte. New York TimesMike Isaac, sugirió que Meta, la empresa matriz de Facebook, Instagram y WhatsApp, “ha tenido el mismo tipo de discusiones”«incluida la idea de contratar a la editorial Simon and Schuster para escanear su extenso catálogo de libros». Florian Mueller, analista y consultor de Microsoft, predijo con cierto sarcasmo que era probable que alguien ya hubiera presentado «una demanda colectiva». preparado Youtuber«.