Los modelos de IA están entrenándose con fotos de niños. Y da igual que los padres traten de evitarlo

Los modelos de IA están entrenándose con fotos de niños. Y da igual que los padres traten de evitarlo
los modelos de ia están entrenándose con fotos de niños. y da igual que los padres traten de evitarlo

El organismo Human Rights Watch (HRW) lleva tiempo vigilando cómo la tecnología puede amenazar nuestros derechos y libertades, y ahora ha denunciado un nuevo problema, esta vez relacionado con la IA. Y lo más preocupante es quiénes son las víctimas de esa amenaza: los niños.


Qué hacían esas fotos de niños ahí. Una investigadora de HWR llamado Hye Jung Han descubrió el mes pasado algo inquietante. El conjunto de datos (dataset) LAION-5B, muy popular para el entrenamiento de modelos de IA, contenía una serie de 170 fotos de niños brasileños. Las imágenes procedían de blogs sobre temas parentales y personales, pero incluso había fotogramas de videos de YouTube poco vistos, posiblemente subidos para ser compartidos con amigos y familiares, indicaron en Wired. Los términos de servicio de YouTube prohíben capturar información que pueda identificar a una persona salvo en casis excepcionales, pero el daño parece estar hecho ya, como vimos en el pasado.


Niños identicables. La investigación destacaba cómo las URLs en el conjunto de datos a veces revelan información sobre los niños, incluyendo nombres o ubicaciones donde fueron tomadas las fotos. De una foto con la descripción "dos niños, de 3 y 4 años, sonriendo de oreja a oreja mientras sostienen pinceles frente a un colorido mural" la investigadora fue capaz de obtener "los nombres completos y edades de ambos niños, y el nombre de la guardería a la que iban en Perth, en Australia Occidental". No había información sobre los niños en otros sitios en internet, lo que parece dejar claro que lso padres tomaron medidas para tratar de evitar que los niños fueran identificados.


Y seguramente esto sea solo la punta del iceberg. Como explican en HRW, sus investigadores solo han podido revisar "menos del 0,0001 % de las 5.850 millones de imágenes y descripciones de ese conjunto de datos". Han explicaba cómo "es alucinante que eso saliera de un conjunto aleatorio de unas 5.000 imágenes, y que de ellas inmediatamente aparecieran esas 190 fotos de niños australianos. Uno esperaría encontrarse con más fotos de gatos que fotos personales de niños" teniend o en cuenta que LAION-5B es teóricamente "un reflejo de toda internet".


La IA no sabe guardar secretos. Para HRW los modelos de IA son un peligro porque ya se ha demostrado que es posible recolectar información sensible y "rescatar" datos sensibles —como registros médicos— que acabaron en esos datasets con los que son entrenados.


Qué dicen los creadores de LAION-5B. Los creadores de este conjunto de datos forman parte de LAION, una ONG que deja claro que tiene una "política de tolerancia cero con el contenido ilegal". Uno de sus portavoces, Nathan Tyler, comentó en Ars Technica que están trabajando para resolver el problema, pero eliminar esas imágenes es un proceso lento y además poco efectivo. Como dice Han, eliminar los enlaces de los conjuntos de datos no cambia los modelos de IA que ya han sido entrenados con este dataset. "No puden olvidar los datos con los que se han entrenado, incluso si esos datos se borraron después del conjunto de datos de entrenamiento".


Imagen Robert Collins


En este blog YouTube considera una violación de la privacidad que alguien use una IA para suplantarnos. Y lo podremos denunciar


No hay comentarios.:

Con tecnología de Blogger.