Meta ha entrenado Llama con libros protegidos por derechos de autor. Zuckerberg lo sabía y le dio igual

https://tinyurl.com/24bd7omr Meta ha entrenado Llama con libros protegidos por derechos de autor. Zuckerberg lo sabía y le dio igual

Meta suele presumir de cómo su modelo de IA, Llama, es Open Source. Lo que no dice es con qué conjunto de datos la han entrenado. Un reciente proceso legal ha hecho que se revelen documentos que precisamente revelan algunos detalles sobre ese proceso de entrenamiento. Y son inquietantes.

Libros pirateados para entrenar el modelo. En el caso Kadrey contra Meta, que incluye a autores de bestsellers como Sarah Silverman y Ta-Nehisi Coates, se acusa a Meta de haber utilizado obras protegidas por los derechos de autor para entrenar sus modelos de inteligencia artificial. Y los documentos desvelados en dicha demanda revelan que los demandantes parecen tener razón.

Voracidad sin límites. Ya en abril de 2024 The New York Times habló de cómo las tecnológicas hacían frente a ese hambre voraz de datos para entrenar sus modelos. En cierto momento Meta llegó a contratar personas en África para agreatar resúmenes de libros que incluían contenidos con copyright "porque no es posible no recolectar esos datos". En dicha investigación Meta acusó a OpenAI de usar material con derechos de autor sin permiso, y sus directivos destacaron cómo "llevaría demasiado tiempo negociar licencias coneditoriales, artistas, músicos y la industria de los medios de actualidad". Las prácticas a las que llegan las empresas incluyen por ejemplo la de usar fotos de niños para entrenar esos modelos.

Que no parezca que tienen copyright. Según el abogado de los demandantes, un ingeniero de Meta llamado Nikolay Bashlykov escribió un programa para eliminar la información sobre los derechos de autor de los libros electrónicos que recolectaron de LibGen para entrenar el modelo. También eliminaron esas etiquetas en los artículos de revistas científicas que usaron en ese proceso de entrenamiento de Llama.

Y además ayudaron a distribuir esas obras. En Meta al parecer no solo utilizaron esas obras para entrenar LibGen, sino que se convirtieron en una semilla o nodo más de la red torrent con la que se distribuían las obras de LibGen, ayudando así a difundirla. Eso amplía aún más la violación de los derechos de autor, que no se limitó al uso de las obras para el entrenamiento de Llama, sino a servir como mecanismo de difusión.

Un caso difícil. Aun así, de momento no hay decisión clara respecto a lo que ocurrió, y todas esas acusaciones se centran en las anteriores versiones de Meta. En 2023 un juzgado ya desestimó las acusaciones contra Meta por un motivo idéntico. La empresa de Mark Zuckerberg indicó entonces que había realizado un Uso Justo ('Fair Use') de esos datos, pero puede que ese argumento no le sirva en esta ocasión. De hecho, el juez Vince Chhabria se negó a ocultar datos que Meta prefería ver omitidos en la documentación del caso.

Meta no es (probablemente) la única. Aunque en este caso la demanda es contra Meta, existen otras muchas en vigor que por ejemplo enfrentan a The New York Times con Microsoft y OpenAI. Esta última de hecho fue acusada de lo mismo que Meta por parte de ocho publicaciones del grupo editorial Alden Global en abril de 2024, aunque es cierto que en los últimos meses ha llegado a acuerdos con grupos editoriales como Associated Press, Axel Springer, Prisa y Le Monde para licenciar sus contenidos y así poder entrenar sus modelos de IA con esos datos de forma legítima. Mientras, Google tiene claro que para entrenar sus modelos va a tomar todo lo que publiquemos en internet, y Perplexity no ha parado de hacer algo parecido y saquear la red de redes para entrenar sus modelos. No está claro si eso incluye obras protegidas por derechos de autor, pero parece difícil que no haya casos de que esas violaciones de copyright hayan ocurrido.

En este blog Las empresas de IA están jugando con fuego con los contenidos con derechos de autor. Y Perplexity está a punto de quemarse

Meta ha entrenado Llama con libros protegidos por derechos de autor. Zuckerberg lo sabía y le dio igual

No hay comentarios.:

Buscar en el blog

UNETEA KWAI

Contribuye

Popular Posts

Translate blog

Meta ha entrenado Llama con libros protegidos por derechos de autor. Zuckerberg lo sabía y le dio igual

También podría gustarte esto

No hay comentarios.:

Buscar en el blog

UNETEA KWAI

Contribuye

Popular Posts

Translate blog