Meta ha entrenado Llama con libros protegidos por derechos de autor. Zuckerberg lo sabĂa y le dio igual
Meta suele presumir de cómo su modelo de IA, Llama, es Open Source. Lo que no dice es con qué conjunto de datos la han entrenado. Un reciente proceso legal ha hecho que se revelen documentos que precisamente revelan algunos detalles sobre ese proceso de entrenamiento. Y son inquietantes.
Libros pirateados para entrenar el modelo. En el caso Kadrey contra Meta, que incluye a autores de bestsellers como Sarah Silverman y Ta-Nehisi Coates, se acusa a Meta de haber utilizado obras protegidas por los derechos de autor para entrenar sus modelos de inteligencia artificial. Y los documentos desvelados en dicha demanda revelan que los demandantes parecen tener razĂłn.
Voracidad sin lĂmites. Ya en abril de 2024 The New York Times hablĂł de cĂłmo las tecnolĂłgicas hacĂan frente a ese hambre voraz de datos para entrenar sus modelos. En cierto momento Meta llegĂł a contratar personas en Ăfrica para agreatar resĂșmenes de libros que incluĂan contenidos con copyright "porque no es posible no recolectar esos datos". En dicha investigaciĂłn Meta acusĂł a OpenAI de usar material con derechos de autor sin permiso, y sus directivos destacaron cĂłmo "llevarĂa demasiado tiempo negociar licencias coneditoriales, artistas, mĂșsicos y la industria de los medios de actualidad". Las prĂĄcticas a las que llegan las empresas incluyen por ejemplo la de usar fotos de niños para entrenar esos modelos.
Que no parezca que tienen copyright. SegĂșn el abogado de los demandantes, un ingeniero de Meta llamado Nikolay Bashlykov escribiĂł un programa para eliminar la informaciĂłn sobre los derechos de autor de los libros electrĂłnicos que recolectaron de LibGen para entrenar el modelo. TambiĂ©n eliminaron esas etiquetas en los artĂculos de revistas cientĂficas que usaron en ese proceso de entrenamiento de Llama.
Y ademĂĄs ayudaron a distribuir esas obras. En Meta al parecer no solo utilizaron esas obras para entrenar LibGen, sino que se convirtieron en una semilla o nodo mĂĄs de la red torrent con la que se distribuĂan las obras de LibGen, ayudando asĂ a difundirla. Eso amplĂa aĂșn mĂĄs la violaciĂłn de los derechos de autor, que no se limitĂł al uso de las obras para el entrenamiento de Llama, sino a servir como mecanismo de difusiĂłn.
Un caso difĂcil. Aun asĂ, de momento no hay decisiĂłn clara respecto a lo que ocurriĂł, y todas esas acusaciones se centran en las anteriores versiones de Meta. En 2023 un juzgado ya desestimĂł las acusaciones contra Meta por un motivo idĂ©ntico. La empresa de Mark Zuckerberg indicĂł entonces que habĂa realizado un Uso Justo ('Fair Use') de esos datos, pero puede que ese argumento no le sirva en esta ocasiĂłn. De hecho, el juez Vince Chhabria se negĂł a ocultar datos que Meta preferĂa ver omitidos en la documentaciĂłn del caso.
Meta no es (probablemente) la Ășnica. Aunque en este caso la demanda es contra Meta, existen otras muchas en vigor que por ejemplo enfrentan a The New York Times con Microsoft y OpenAI. Esta Ășltima de hecho fue acusada de lo mismo que Meta por parte de ocho publicaciones del grupo editorial Alden Global en abril de 2024, aunque es cierto que en los Ășltimos meses ha llegado a acuerdos con grupos editoriales como Associated Press, Axel Springer, Prisa y Le Monde para licenciar sus contenidos y asĂ poder entrenar sus modelos de IA con esos datos de forma legĂtima. Mientras, Google tiene claro que para entrenar sus modelos va a tomar todo lo que publiquemos en internet, y Perplexity no ha parado de hacer algo parecido y saquear la red de redes para entrenar sus modelos. No estĂĄ claro si eso incluye obras protegidas por derechos de autor, pero parece difĂcil que no haya casos de que esas violaciones de copyright hayan ocurrido.
En este blog Las empresas de IA estĂĄn jugando con fuego con los contenidos con derechos de autor. Y Perplexity estĂĄ a punto de quemarse
No hay comentarios.: