Meta ha entrenado Llama con libros protegidos por derechos de autor. Zuckerberg lo sabĂ­a y le dio igual

https://tinyurl.com/24bd7omr Meta ha entrenado Llama con libros protegidos por derechos de autor. Zuckerberg lo sabĂ­a y le dio igual
meta ha entrenado llama con libros protegidos por derechos de autor. zuckerberg lo sabĂ­a y le dio igual

Meta suele presumir de cómo su modelo de IA, Llama, es Open Source. Lo que no dice es con qué conjunto de datos la han entrenado. Un reciente proceso legal ha hecho que se revelen documentos que precisamente revelan algunos detalles sobre ese proceso de entrenamiento. Y son inquietantes.


Libros pirateados para entrenar el modelo. En el caso Kadrey contra Meta, que incluye a autores de bestsellers como Sarah Silverman y Ta-Nehisi Coates, se acusa a Meta de haber utilizado obras protegidas por los derechos de autor para entrenar sus modelos de inteligencia artificial. Y los documentos desvelados en dicha demanda revelan que los demandantes parecen tener razĂłn.


Voracidad sin lĂ­mites. Ya en abril de 2024 The New York Times hablĂł de cĂłmo las tecnolĂłgicas hacĂ­an frente a ese hambre voraz de datos para entrenar sus modelos. En cierto momento Meta llegĂł a contratar personas en África para agreatar resĂșmenes de libros que incluĂ­an contenidos con copyright "porque no es posible no recolectar esos datos". En dicha investigaciĂłn Meta acusĂł a OpenAI de usar material con derechos de autor sin permiso, y sus directivos destacaron cĂłmo "llevarĂ­a demasiado tiempo negociar licencias coneditoriales, artistas, mĂșsicos y la industria de los medios de actualidad". Las prĂĄcticas a las que llegan las empresas incluyen por ejemplo la de usar fotos de niños para entrenar esos modelos.


Que no parezca que tienen copyright. SegĂșn el abogado de los demandantes, un ingeniero de Meta llamado Nikolay Bashlykov escribiĂł un programa para eliminar la informaciĂłn sobre los derechos de autor de los libros electrĂłnicos que recolectaron de LibGen para entrenar el modelo. TambiĂ©n eliminaron esas etiquetas en los artĂ­culos de revistas cientĂ­ficas que usaron en ese proceso de entrenamiento de Llama.


Y ademĂĄs ayudaron a distribuir esas obras. En Meta al parecer no solo utilizaron esas obras para entrenar LibGen, sino que se convirtieron en una semilla o nodo mĂĄs de la red torrent con la que se distribuĂ­an las obras de LibGen, ayudando asĂ­ a difundirla. Eso amplĂ­a aĂșn mĂĄs la violaciĂłn de los derechos de autor, que no se limitĂł al uso de las obras para el entrenamiento de Llama, sino a servir como mecanismo de difusiĂłn.


Un caso difícil. Aun así, de momento no hay decisión clara respecto a lo que ocurrió, y todas esas acusaciones se centran en las anteriores versiones de Meta. En 2023 un juzgado ya desestimó las acusaciones contra Meta por un motivo idéntico. La empresa de Mark Zuckerberg indicó entonces que había realizado un Uso Justo ('Fair Use') de esos datos, pero puede que ese argumento no le sirva en esta ocasión. De hecho, el juez Vince Chhabria se negó a ocultar datos que Meta prefería ver omitidos en la documentación del caso.


Meta no es (probablemente) la Ășnica. Aunque en este caso la demanda es contra Meta, existen otras muchas en vigor que por ejemplo enfrentan a The New York Times con Microsoft y OpenAI. Esta Ășltima de hecho fue acusada de lo mismo que Meta por parte de ocho publicaciones del grupo editorial Alden Global en abril de 2024, aunque es cierto que en los Ășltimos meses ha llegado a acuerdos con grupos editoriales como Associated Press, Axel Springer, Prisa y Le Monde para licenciar sus contenidos y asĂ­ poder entrenar sus modelos de IA con esos datos de forma legĂ­tima. Mientras, Google tiene claro que para entrenar sus modelos va a tomar todo lo que publiquemos en internet, y Perplexity no ha parado de hacer algo parecido y saquear la red de redes para entrenar sus modelos. No estĂĄ claro si eso incluye obras protegidas por derechos de autor, pero parece difĂ­cil que no haya casos de que esas violaciones de copyright hayan ocurrido.


En este blog Las empresas de IA estĂĄn jugando con fuego con los contenidos con derechos de autor. Y Perplexity estĂĄ a punto de quemarse


No hay comentarios.:

Con tecnologĂ­a de Blogger.