OpenAI gana la primera batalla del copyright con ChatGPT, pero no la guerra. Y acaba de darle una enorme ventaja al New York Times
¿Puede aprovecharse la IA de los contenidos que estĂĄn pĂșblicamente disponibles en internet? ¿Y si esos contenidos estĂĄn protegidos por los derechos de autor? La respuesta a la primera pregunta es clara: lo estĂĄ haciendo. La cosa es mĂĄs delicada para la segunda, pero todo apunta a que las empresas de IA estĂĄn usando tambiĂ©n contenidos con copyright para entrenar sus modelos. Ahora queda saber si eso tendrĂĄ consecuencias.
PeriĂłdicos que acusan a ChatGPT de robarles contenidos. Raw Story y Alternet son dos publicaciones online que como indican en Reuters demandaron a OpenAI el pasado mes de febrero. SegĂșn la demanda, la empresa usĂł miles de sus artĂculos sin permiso para entrenar su popular chatbot, ChatGPT. No solo eso: acusan a OpenAI de reproducir sus contenidos con copyright cuando se le pedĂan dichos contenidos a su modelo de IA.
Demandas por doquier. En los Ășltimos meses hemos visto demandas como la de Getty a Stable Diffusion, la que afecta a GitHub Copilot y otras amenazas legales como las de la The Author's Guild. David Holz, fundador de Midjourney, admitĂa que al entrenar su modelo "No hay realmente una forma de tomar cien millones de imĂĄgenes y saber de dĂłnde provienen. EstarĂa bien que las imĂĄgenes tuvieran metadatos incrustados sobre el propietario del copyright o algo asĂ. Pero eso no existe; no hay ningĂșn registro".
The New York Times estĂĄ al acecho. Esas dos publicaciones se unen a demandas anteriores de medios y grupos editoriales especialmente poderosos. En febrero de 2023 The Wall Street Journal y CNN ya mostraron su preocupaciĂłn respecto al uso de sus contenidos en modelos de IA.
AĂșn mĂĄs sonada fue la demanda de The New York Times, que acusĂł a Microsoft y OpenAI de violaciĂłn de copyright por este mismo tipo de actividad. SegĂșn dicha demanda, millones de artĂculos publicados por NYT fueron usado para entrenar modelos de IA. En abril de 2024 otros ocho diarios demandaron a esas mismas empresas por exactamente los mismos motivos.
Transparencia cero. El secretismo relativo a los conjuntos de datos usados para el entrenamiento es total tanto en OpenAI como en sus competidoras. No dan apenas detalles sobre esos contenidos pero en los Ășltimos tiempos sĂ han hecho declaraciones que dejan claro que aprovechan todo lo que pueden.
Pero es que necesitan ese material, argumentan en OpenAIGoogle explicĂł que puede "retomar informaciĂłn pĂșblicamente disponible online" para el entrenamiento de sus modelos de IA, Meta lleva tiempo usando todo lo que sus usuarios publican en Facebook e Instagram, y OpenAI llegĂł a decir ante el Parlamento britĂĄnico que "serĂa imposible entrenar los principales modelos de IA de hoy en dĂa sin usar materiales con copyright".
Si quieres usar mis contenidos, pĂĄgame. Las empresas de IA estĂĄn empezando a darse cuenta del enorme riesgo al que se estĂĄn exponiendo, y algunas comienzan a cubrirse las espaldas con un mĂ©todo sencillo: acuerdos econĂłmicos. Google licenciĂł contenidos de Reddit, y OpenAI ha llegado tambiĂ©n a algunos acuerdos econĂłmicos con grupos editoriales como Prisa (El PaĂs) y Le Monde.
Perplexity y ChatGPT Search tienen un problema mayor. Los Ășltimos casos de esta peligrosa situaciĂłn los estamos viendo en los buscadores con IA. Perplexity y ChatGPT Search son capaces de navegar por internet, tomar un puñado de fuentes y contestar a nuestras preguntas resumiendo la informaciĂłn procedente de esas fuentes. Eso estĂĄ muy bien para el usuario, que logra la respuesta a lo que quiere de forma clara, pero estos "motores de bĂșsqueda" hacen asĂ innecesario que la mayorĂa de las veces el usuario haga clic en el enlace original. Los creadores de contenido, por tanto, pierden trĂĄfico que ganan esos modelos de IA, lo que agrava aĂșn mĂĄs la situaciĂłn.
Imagen HĂŒmĂą H. Yardım Marco Lenti
En este blog Las empresas de IA estĂĄn jugando con fuego con los contenidos con derechos de autor. Y Perplexity estĂĄ a punto de quemarse
No hay comentarios.: