Anthropic querĂa escanear y acto seguido destruir en secreto millones de libros para entrenar su IA. No ha sido tan secreto
Un modelo de lenguaje para IA necesita informaciĂłn si se quiere entrenar para que sea mĂĄs preciso y efectivo. El tema es cĂłmo se obtiene la informaciĂłn y si existe una manera Ă©tica de hacerlo que le salga rentable a la tecnolĂłgica de turno. No hay duda de que la opciĂłn preferida de las empresas ha sido utilizar todo contenido posible fĂsico y digital sin permiso de nadie. TambiĂ©n hay pruebas.
Una filtraciĂłn judicial desvela que Anthropic invirtiĂł decenas de millones de dĂłlares en adquirir y digitalizar obras literarias sin permiso de los autores. SegĂșn cuenta el Washington Post, el proyecto, llamado internamente "Panama", formaba parte de una carrera frenĂ©tica entre las grandes tecnolĂłgicas por acumular datos masivos para entrenar sus modelos de inteligencia artificial.
No son los Ășnicos. Los documentos judiciales revelan que otras tecnolĂłgicas como Meta, Google y OpenAI tambiĂ©n habĂan participado en esta carrera por obtener informaciĂłn masiva para entrenar sus modelos. SegĂșn revelaba el medio a partir de los documentos, un cofundador de Anthropic teorizaba en enero de 2023 que entrenar modelos de IA con libros podrĂa enseñarles "cĂłmo escribir bien" en lugar de imitar "la jerga de internet de baja calidad".
Por otro lado, un email interno de Meta de 2024 describĂa el acceso a una biblioteca digital de libros como "esencial" para ser competitivo frente a sus rivales en la carrera por dominar la IA. Sin embargo, los documentos desvelados por el medio tambiĂ©n demuestran cĂłmo empleados de Meta expresaron preocupaciĂłn en varias ocasiones sobre la legalidad de descargar millones de libros sin permiso. Un email interno de diciembre de 2023 indica que la prĂĄctica habĂa sido aprobada tras haber sido "escalada a MZ", aparentemente haciendo referencia al CEO, Mark Zuckerberg.
SegĂșn los registros judiciales a los que ha tenido acceso el medio, las compañĂas no consideraron “prĂĄctico” obtener permiso directo de editoriales y autores. En su lugar, encontraron formas de adquirir libros masivamente sin el conocimiento de los escritores, incluyendo la descarga de copias sin autorizaciĂłn desde sitios de terceros.
Registros de chat de abril de 2024 muestran a un empleado preguntando por quĂ© usaban servidores alquilados a Amazon para descargar torrents en lugar de los propios de Facebook. La respuesta: "Evitar el riesgo de rastrear" la actividad hasta la compañĂa.
Torrente de datos. Los documentos a los que ha tenido acceso el Washington Post tambiĂ©n prueban que Ben Mann, cofundador de Anthropic, descargĂł personalmente durante 11 dĂas en junio de 2021 una colecciĂłn de libros desde LibGen, una gigantesca biblioteca con contenido protegido por derechos de autor. El medio revelaba ademĂĄs que, un año despuĂ©s, en julio de 2022, Mann celebrĂł el lanzamiento del sitio web ‘Pirate Library Mirror’, que presume de una base de datos masiva de libros y declara abiertamente violar las leyes de copyright. "¡¡¡Justo a tiempo!!!", escribĂa Mann a otros empleados de Anthropic, segĂșn apunta el medio.
Anthropic declarĂł en documentos legales que nunca entrenĂł un modelo comercial que generara ingresos usando datos de LibGen ni utilizĂł Pirate Library Mirror para entrenar ningĂșn modelo completo.
La soluciĂłn legal de Anthropic. SegĂșn apunta el medio en su artĂculo, ante el riesgo legal, Anthropic cambiĂł de estrategia. La empresa contratĂł a Tom Turvey, veterano de Silicon Valley que habĂa ayudado a crear el proyecto Google Books dos dĂ©cadas antes. Bajo su direcciĂłn, Anthropic considerĂł comprar libros de bibliotecas o librerĂas de segunda mano, incluida la emblemĂĄtica librerĂa Strand de Nueva York.
La compañĂa finalmente acabĂł comprando millones de libros y apilĂĄndolos en un gigantesco almacĂ©n, a menudo en lotes de decenas de miles, segĂșn las presentaciones judiciales. El Washington Post asegura ademĂĄs que la compañĂa trabajĂł con vendedores de libros usados del Reino Unido. Una propuesta de proyecto menciona que Anthropic buscaba "convertir entre 500.000 y dos millones de libros en un perĂodo de seis meses".
QuĂ© dice la ley. La mayorĂa de los casos legales contra empresas de IA siguen en curso, pero el medio menciona dos fallas judiciales que han considerado que el uso de libros para entrenar modelos de IA sin permiso del autor o editor puede ser legal bajo la doctrina de "uso legĂtimo" del derecho de autor.
En el caso de Anthropic, el proyecto de escaneo de libros fĂsicos fue considerado legal, pero el juez determinĂł que la compañĂa pudo haber infringido derechos de autor al descargar millones de libros sin autorizaciĂłn antes de lanzar el Proyecto Panama.
El acuerdo final. En lugar de enfrentarse a un juicio, Anthropic acordĂł pagar 1.500 millones de dĂłlares a editoriales y autores sin admitir culpabilidad. SegĂșn apunta el medio, los autores cuyos libros fueron descargados pueden reclamar su parte del acuerdo, estimada en unos 3.000 dĂłlares por tĂtulo.
Imagen de portada Emil Widlund y Anthropic
No hay comentarios.: