Anthropic quería escanear y acto seguido destruir en secreto millones de libros para entrenar su IA. No ha sido tan secreto

Un modelo de lenguaje para IA necesita información si se quiere entrenar para que sea más preciso y efectivo. El tema es cómo se obtiene la información y si existe una manera ética de hacerlo que le salga rentable a la tecnológica de turno. No hay duda de que la opción preferida de las empresas ha sido utilizar todo contenido posible físico y digital sin permiso de nadie. También hay pruebas.

Una filtración judicial desvela que Anthropic invirtió decenas de millones de dólares en adquirir y digitalizar obras literarias sin permiso de los autores. Según cuenta el Washington Post, el proyecto, llamado internamente "Panama", formaba parte de una carrera frenética entre las grandes tecnológicas por acumular datos masivos para entrenar sus modelos de inteligencia artificial.

No son los únicos. Los documentos judiciales revelan que otras tecnológicas como Meta, Google y OpenAI también habían participado en esta carrera por obtener información masiva para entrenar sus modelos. Según revelaba el medio a partir de los documentos, un cofundador de Anthropic teorizaba en enero de 2023 que entrenar modelos de IA con libros podría enseñarles "cómo escribir bien" en lugar de imitar "la jerga de internet de baja calidad".

Por otro lado, un email interno de Meta de 2024 describía el acceso a una biblioteca digital de libros como "esencial" para ser competitivo frente a sus rivales en la carrera por dominar la IA. Sin embargo, los documentos desvelados por el medio también demuestran cómo empleados de Meta expresaron preocupación en varias ocasiones sobre la legalidad de descargar millones de libros sin permiso. Un email interno de diciembre de 2023 indica que la práctica había sido aprobada tras haber sido "escalada a MZ", aparentemente haciendo referencia al CEO, Mark Zuckerberg.

Según los registros judiciales a los que ha tenido acceso el medio, las compañías no consideraron “práctico” obtener permiso directo de editoriales y autores. En su lugar, encontraron formas de adquirir libros masivamente sin el conocimiento de los escritores, incluyendo la descarga de copias sin autorización desde sitios de terceros.

Registros de chat de abril de 2024 muestran a un empleado preguntando por qué usaban servidores alquilados a Amazon para descargar torrents en lugar de los propios de Facebook. La respuesta: "Evitar el riesgo de rastrear" la actividad hasta la compañía.

Torrente de datos. Los documentos a los que ha tenido acceso el Washington Post también prueban que Ben Mann, cofundador de Anthropic, descargó personalmente durante 11 días en junio de 2021 una colección de libros desde LibGen, una gigantesca biblioteca con contenido protegido por derechos de autor. El medio revelaba además que, un año después, en julio de 2022, Mann celebró el lanzamiento del sitio web ‘Pirate Library Mirror’, que presume de una base de datos masiva de libros y declara abiertamente violar las leyes de copyright. "¡¡¡Justo a tiempo!!!", escribía Mann a otros empleados de Anthropic, según apunta el medio.

Anthropic declaró en documentos legales que nunca entrenó un modelo comercial que generara ingresos usando datos de LibGen ni utilizó Pirate Library Mirror para entrenar ningún modelo completo.

La solución legal de Anthropic. Según apunta el medio en su artículo, ante el riesgo legal, Anthropic cambió de estrategia. La empresa contrató a Tom Turvey, veterano de Silicon Valley que había ayudado a crear el proyecto Google Books dos décadas antes. Bajo su dirección, Anthropic consideró comprar libros de bibliotecas o librerías de segunda mano, incluida la emblemática librería Strand de Nueva York.

La compañía finalmente acabó comprando millones de libros y apilándolos en un gigantesco almacén, a menudo en lotes de decenas de miles, según las presentaciones judiciales. El Washington Post asegura además que la compañía trabajó con vendedores de libros usados del Reino Unido. Una propuesta de proyecto menciona que Anthropic buscaba "convertir entre 500.000 y dos millones de libros en un período de seis meses".

Qué dice la ley. La mayoría de los casos legales contra empresas de IA siguen en curso, pero el medio menciona dos fallas judiciales que han considerado que el uso de libros para entrenar modelos de IA sin permiso del autor o editor puede ser legal bajo la doctrina de "uso legítimo" del derecho de autor.

En el caso de Anthropic, el proyecto de escaneo de libros físicos fue considerado legal, pero el juez determinó que la compañía pudo haber infringido derechos de autor al descargar millones de libros sin autorización antes de lanzar el Proyecto Panama.

El acuerdo final. En lugar de enfrentarse a un juicio, Anthropic acordó pagar 1.500 millones de dólares a editoriales y autores sin admitir culpabilidad. Según apunta el medio, los autores cuyos libros fueron descargados pueden reclamar su parte del acuerdo, estimada en unos 3.000 dólares por título.

Imagen de portada Emil Widlund y Anthropic

Anthropic quería escanear y acto seguido destruir en secreto millones de libros para entrenar su IA. No ha sido tan secreto

No hay comentarios.:

Buscar en el blog

UNETEA KWAI

Contribuye

Popular Posts

Translate blog

Anthropic quería escanear y acto seguido destruir en secreto millones de libros para entrenar su IA. No ha sido tan secreto

También podría gustarte esto

No hay comentarios.:

Buscar en el blog

UNETEA KWAI

Contribuye

Popular Posts

Translate blog