Microsoft está explorando una forma de dar crédito a los contribuyentes a los datos de entrenamiento de IA

Microsoft ha puesto en marcha un ambicioso proyecto de investigación con el objetivo de determinar cómo los datos de entrenamiento impactan en la generación de contenido de los modelos de inteligencia artificial. Esta iniciativa busca medir con precisión la influencia de textos, imágenes y otros tipos de medios en la creación de respuestas por parte de las IA generativas.

El proyecto, cuya existencia se conoció a través de una oferta de empleo publicada en diciembre y recientemente compartida en LinkedIn, pretende demostrar que es posible entrenar modelos de IA de manera que se pueda evaluar de forma eficaz el peso de determinados datos en sus resultados.

La necesidad de transparencia en la IA

Uno de los principales desafíos de las redes neuronales actuales es su falta de transparencia respecto a las fuentes de información que utilizan para generar contenido. Microsoft pretende abordar este problema con un enfoque innovador. Según la oferta de empleo, esta investigación podría sentar las bases para reconocer y recompensar a las personas cuyos datos resulten esenciales para la creación de contenido en futuros modelos de IA.

Este esfuerzo se enmarca en un contexto donde diversas empresas tecnológicas enfrentan demandas relacionadas con derechos de autor. La generación de textos, imágenes, vídeos y código mediante IA ha sido motivo de controversia, ya que muchas compañías entrenan sus modelos con información extraída de internet, a menudo sin el consentimiento explícito de los creadores originales.

Demandas y conflictos legales en torno a la IA

Microsoft no es ajena a las disputas legales en este ámbito. La empresa enfrenta al menos dos demandas por parte de titulares de derechos de autor. En diciembre, The New York Times demandó a Microsoft y OpenAI, acusándolos de utilizar millones de artículos protegidos para entrenar sus modelos sin autorización. De manera similar, desarrolladores de software han presentado quejas alegando que la herramienta GitHub Copilot fue entrenada con su código sin respetar las licencias correspondientes.

Ante este panorama, Microsoft busca soluciones innovadoras. En su nuevo proyecto, denominado training-time provenance, participa Jaron Lanier, un destacado tecnólogo y científico interdisciplinario de Microsoft Research. Lanier ha promovido la idea de la «dignidad de los datos», que propone vincular el contenido digital con sus creadores originales para garantizar reconocimiento y compensación.

Modelos de compensación para creadores de contenido

Algunas empresas ya han comenzado a implementar mecanismos para compensar a los propietarios de datos. Por ejemplo, la startup de IA Bria, que recientemente recaudó 40 millones de dólares en inversión de riesgo, ha desarrollado un sistema que retribuye económicamente a los propietarios de datos según su nivel de influencia en la generación de contenido. Adobe y Shutterstock también han introducido programas de pago para los contribuyentes de sus bases de datos, aunque los criterios y montos exactos suelen ser opacos.

A pesar de estas iniciativas, la mayoría de los laboratorios de IA no han establecido programas de pago individuales, sino que han ofrecido a los creadores de contenido la posibilidad de excluir sus datos del entrenamiento. Sin embargo, estos procesos suelen ser complicados y solo se aplican a modelos futuros, dejando sin protección a los contenidos ya utilizados en entrenamientos previos.

¿Un cambio real o una estrategia de imagen?

Queda por ver si este nuevo esfuerzo de Microsoft tendrá un impacto significativo o si será simplemente un experimento teórico sin aplicación práctica. No sería la primera vez que una empresa de IA anuncia herramientas para ofrecer mayor control a los creadores y que luego estas no llegan a implementarse. OpenAI, por ejemplo, anunció en mayo de 2023 un sistema similar que aún no ha visto la luz.

Algunos críticos consideran que Microsoft podría estar usando este proyecto como una estrategia para mejorar su imagen pública o para adelantarse a posibles regulaciones que afecten su negocio de inteligencia artificial.

En este contexto, resulta llamativo que otras grandes compañías como Google y OpenAI hayan presionado para que la legislación estadounidense flexibilice las normas de derechos de autor en relación con la IA. OpenAI incluso ha instado al gobierno de EE.UU. a garantizar que el entrenamiento de modelos de IA pueda seguir considerándose uso justo, lo que eximiría a las empresas de la necesidad de obtener permisos individuales.

Por el momento, Microsoft no ha hecho comentarios oficiales sobre el proyecto, pero su desarrollo será clave para definir el futuro de la transparencia y la ética en la inteligencia artificial.

FAQ (Preguntas Frecuentes)

1. ¿Por qué Microsoft investiga la influencia de los datos en la IA?

Microsoft busca entender cómo los datos de entrenamiento afectan la generación de contenido en modelos de IA, con el fin de mejorar la transparencia y posiblemente compensar a los creadores de contenido.

2. ¿Cuáles son las implicaciones legales de entrenar IA con datos públicos?

Muchas empresas argumentan que el uso de datos públicos para entrenar IA está protegido por el principio de uso justo, pero creadores de contenido y titulares de derechos de autor han presentado demandas en contra de esta práctica.

3. ¿Microsoft ha sido demandada por derechos de autor en relación con la IA?

Sí, enfrenta al menos dos demandas, una por parte de The New York Times y otra de desarrolladores de software, quienes afirman que sus contenidos fueron utilizados sin permiso para entrenar modelos de IA.

4. ¿Qué es la «dignidad de los datos» según Jaron Lanier?

Es un concepto que busca conectar los datos digitales con sus creadores originales, permitiendo su reconocimiento y posible compensación por el uso en modelos de IA.

5. ¿Este proyecto de Microsoft podría cambiar la industria de la IA?

Si se implementa con éxito, podría establecer nuevos estándares de transparencia y compensación en el entrenamiento de modelos de IA. Sin embargo, algunos expertos creen que podría ser solo una estrategia de imagen.