Anthropic querĂ­a escanear y acto seguido destruir en secreto millones de libros para entrenar su IA. No ha sido tan secreto

Anthropic querĂ­a escanear y acto seguido destruir en secreto millones de libros para entrenar su IA. No ha sido tan secreto
anthropic querĂ­a escanear y acto seguido destruir en secreto millones de libros para entrenar su ia. no ha sido tan secreto

Un modelo de lenguaje para IA necesita información si se quiere entrenar para que sea mås preciso y efectivo. El tema es cómo se obtiene la información y si existe una manera ética de hacerlo que le salga rentable a la tecnológica de turno. No hay duda de que la opción preferida de las empresas ha sido utilizar todo contenido posible físico y digital sin permiso de nadie. También hay pruebas.


Una filtraciĂłn judicial desvela que Anthropic invirtiĂł decenas de millones de dĂłlares en adquirir y digitalizar obras literarias sin permiso de los autores. SegĂșn cuenta el Washington Post, el proyecto, llamado internamente "Panama", formaba parte de una carrera frenĂ©tica entre las grandes tecnolĂłgicas por acumular datos masivos para entrenar sus modelos de inteligencia artificial.


No son los Ășnicos. Los documentos judiciales revelan que otras tecnolĂłgicas como Meta, Google y OpenAI tambiĂ©n habĂ­an participado en esta carrera por obtener informaciĂłn masiva para entrenar sus modelos. SegĂșn revelaba el medio a partir de los documentos, un cofundador de Anthropic teorizaba en enero de 2023 que entrenar modelos de IA con libros podrĂ­a enseñarles "cĂłmo escribir bien" en lugar de imitar "la jerga de internet de baja calidad".


Por otro lado, un email interno de Meta de 2024 describía el acceso a una biblioteca digital de libros como "esencial" para ser competitivo frente a sus rivales en la carrera por dominar la IA. Sin embargo, los documentos desvelados por el medio también demuestran cómo empleados de Meta expresaron preocupación en varias ocasiones sobre la legalidad de descargar millones de libros sin permiso. Un email interno de diciembre de 2023 indica que la pråctica había sido aprobada tras haber sido "escalada a MZ", aparentemente haciendo referencia al CEO, Mark Zuckerberg.


SegĂșn los registros judiciales a los que ha tenido acceso el medio, las compañías no consideraron “prĂĄctico” obtener permiso directo de editoriales y autores. En su lugar, encontraron formas de adquirir libros masivamente sin el conocimiento de los escritores, incluyendo la descarga de copias sin autorizaciĂłn desde sitios de terceros.


Registros de chat de abril de 2024 muestran a un empleado preguntando por qué usaban servidores alquilados a Amazon para descargar torrents en lugar de los propios de Facebook. La respuesta: "Evitar el riesgo de rastrear" la actividad hasta la compañía.


Torrente de datos. Los documentos a los que ha tenido acceso el Washington Post tambiĂ©n prueban que Ben Mann, cofundador de Anthropic, descargĂł personalmente durante 11 dĂ­as en junio de 2021 una colecciĂłn de libros desde LibGen, una gigantesca biblioteca con contenido protegido por derechos de autor. El medio revelaba ademĂĄs que, un año despuĂ©s, en julio de 2022, Mann celebrĂł el lanzamiento del sitio web ‘Pirate Library Mirror’, que presume de una base de datos masiva de libros y declara abiertamente violar las leyes de copyright. "¡¡¡Justo a tiempo!!!", escribĂ­a Mann a otros empleados de Anthropic, segĂșn apunta el medio.


Anthropic declarĂł en documentos legales que nunca entrenĂł un modelo comercial que generara ingresos usando datos de LibGen ni utilizĂł Pirate Library Mirror para entrenar ningĂșn modelo completo.


La soluciĂłn legal de Anthropic. SegĂșn apunta el medio en su artĂ­culo, ante el riesgo legal, Anthropic cambiĂł de estrategia. La empresa contratĂł a Tom Turvey, veterano de Silicon Valley que habĂ­a ayudado a crear el proyecto Google Books dos dĂ©cadas antes. Bajo su direcciĂłn, Anthropic considerĂł comprar libros de bibliotecas o librerĂ­as de segunda mano, incluida la emblemĂĄtica librerĂ­a Strand de Nueva York.


La compañía finalmente acabĂł comprando millones de libros y apilĂĄndolos en un gigantesco almacĂ©n, a menudo en lotes de decenas de miles, segĂșn las presentaciones judiciales. El Washington Post asegura ademĂĄs que la compañía trabajĂł con vendedores de libros usados del Reino Unido. Una propuesta de proyecto menciona que Anthropic buscaba "convertir entre 500.000 y dos millones de libros en un perĂ­odo de seis meses".


Qué dice la ley. La mayoría de los casos legales contra empresas de IA siguen en curso, pero el medio menciona dos fallas judiciales que han considerado que el uso de libros para entrenar modelos de IA sin permiso del autor o editor puede ser legal bajo la doctrina de "uso legítimo" del derecho de autor.


En el caso de Anthropic, el proyecto de escaneo de libros físicos fue considerado legal, pero el juez determinó que la compañía pudo haber infringido derechos de autor al descargar millones de libros sin autorización antes de lanzar el Proyecto Panama.


El acuerdo final. En lugar de enfrentarse a un juicio, Anthropic acordĂł pagar 1.500 millones de dĂłlares a editoriales y autores sin admitir culpabilidad. SegĂșn apunta el medio, los autores cuyos libros fueron descargados pueden reclamar su parte del acuerdo, estimada en unos 3.000 dĂłlares por tĂ­tulo.


Imagen de portada Emil Widlund y Anthropic


No hay comentarios.:

Con tecnologĂ­a de Blogger.