Los documentos revelados recientemente en la demanda colectiva del Authors Guild of America contra OpenAI muestran que la compañía creó dos conjuntos de datos masivos llamados «Libros1» Y «Libros2» que se utilizó para entrenar su modelo de IA GPT-3.
Los abogados del Authors Guild han afirmado en presentaciones judiciales que los conjuntos de datos probablemente incluían «más de 100.000 libros publicados», lo que constituye la parte central de su afirmación de que OpenAI, la empresa detrás de ChatGPT, utilizó material protegido por derechos de autor para entrenar sus modelos de IA.
Durante meses, el Authors Guild of America ha estado pidiendo a OpenAI información sobre los conjuntos de datos utilizados para sus modelos de IA. La empresa inicialmente se resistió, alegando problemas de confidencialidad, pero finalmente anunció que había eliminado todas las copias de los datos, según documentos legales vistos por Business Insider.
Los datos de entrenamiento de alta calidad son una parte importante de los poderosos modelos de IA que están arrasando en el sector tecnológico. OpenAI y otras empresas utilizaron datos de Internet, incluidos muchos libros, para crear estos modelos. Muchas de las empresas que crearon esta información quieren que se les pague por contribuir con información a estos nuevos productos de IA. Sin embargo, las empresas de tecnología responsables de estos modelos de inteligencia artificial que impulsan los chatbots como ChatGPT no quieren verse obligadas a pagar. El litigio ya se está tramitando en varios tribunales de Estados Unidos.
En uno Papel En 2020, OpenAI publicó los conjuntos de datos. Libros1 Y Libros2 como «corpus de libros basado en Internet» y afirmó que representaban el 16% de los datos de entrenamiento utilizados para crear GPT-3. El documento también afirma que Libros1 Y Libros2 Contienen 67 mil millones de tokens de datos, lo que equivale a unos 50 mil millones de palabras. A modo de comparación, la traducción inglesa de la Biblia contiene 783.137 palabras.
La carta publicada por los abogados de OpenAI, originalmente marcada como «estrictamente confidencial, visible sólo para los abogados», afirma que el uso de Libros1 Y Libros2 se suspendió para la capacitación del modelo a fines de 2021 y los conjuntos de datos se eliminaron a mediados de 2022 debido a la falta de uso. La carta continúa diciendo que ninguno de los demás datos utilizados para entrenar GPT-3 ha sido eliminado y proporciona a los abogados del Authors Guild acceso a estos otros conjuntos de datos.
Los documentos desclasificados también revelan que los dos investigadores que lo crearon Libros1 Y Libros2 Ya no funcionan para OpenAI. La empresa tecnológica también se negó inicialmente a revelar las identidades de los dos empleados.
La empresa ha identificado a los empleados a petición de los abogados del Authors Guild, pero no ha hecho públicos sus nombres. OpenAI ha pedido al tribunal que mantenga en el anonimato los nombres de los dos empleados y la información sobre los conjuntos de datos. La asociación de autores se pronunció en contra de esta decisión.
«Los modelos que impulsan ChatGPT y nuestra API hoy no se desarrollaron utilizando estos conjuntos de datos», dijo OpenAI en un comunicado publicado el martes. «Estos conjuntos de datos, creados por ex empleados que ya no forman parte de OpenAI, se utilizaron por última vez en 2021 y se eliminaron por falta de uso en 2022».
Axel Springer, la empresa matriz de Business Insider, ha firmado un acuerdo global que permite a OpenAI entrenar sus modelos en el contenido de sus marcas de medios.
Comments