¿Está privatizando la inteligencia artificial el conocimiento de licencia libre?

Vea También

La forma en que administramos y compartimos el conocimiento no solo configura nuestra realidad actual, sino que también traza el camino hacia nuestro futuro colectivo.

Las licencias posibilitan la vida social del conocimiento, al delimitar sus condiciones de uso y reutilización. Son los mecanismos sociales vinculados a las restricciones morales y de explotación derivadas de la propiedad intelectual y derechos de autor.

Un libro, un artículo científico, una fotografía histórica digitalizada, un reel en Instagram o el conjunto de datos de población activa combinan unas condiciones técnicas para su acceso, distribución y transformación con unos condicionantes de uso acordados en sociedad. Estos se encuentran enmarcados, además, en una serie de prácticas culturales significativas.

Bienes comunes vs bienes comerciales

Una de estas prácticas aceptadas son los movimientos de ciencia abierta, la cultura y el conocimiento abierto o libre, tanto los institucionalizados como los surgidos desde la iniciativa social.

Jimmy Wales y Larry Sanger, fundadores de la Wikipedia en 2001. Wikimedia Commons., CC BY

Lo abierto introduce un punto de equilibrio entre una sociedad de mercado que trata de maximizar el valor de sus activos (como la Encyclopedia Britannica) y la necesidad de disponer de una infraestructura de conocimiento equilibrada que produzca valor social sostenible (Wikipedia).

Asistimos desde hace años a una carrera de fondo para que las licencias por defecto en la ciencia sean lo más abiertas posibles, para eliminar el máximo de restricciones en los contenidos culturales y educativos. Esto nos lleva hacia una concepción de la información y los datos como Commons o bienes comunes, con una acusada naturaleza maleable, especialmente al ser tratada por máquinas.

Este bien colectivo digital –información, contenido, datos– contiene una promesa de participación no solo de los gobiernos e instituciones, sino también de los ciudadanos, colectivos y agentes económicos, desde cierta igualdad de condiciones y obligaciones.

¿Es siempre la licencia menos restrictiva la mejor?

Un caso doble de éxito de contenido libre es la aventura enciclopédica de Wikipedia desde 2001 y Wikidata, su mucho menos conocido banco de datos vinculado a los artículos, activo desde 2012. Contenidos y datos están siendo organizados y “curados” de forma colaborativa y desinteresada por miles de voluntarios en todo el planeta.

En la actualidad hay seis tipos de licencias Creative Commons, siete si añadimos CC Zero, que corresponde a las obras de dominio público. Shaddim / Wikimedia Commons., CC BY

Las Wikipedias en todos los idiomas tienen una licencia Creative Commons Attribution-ShareAlike (CC-BY-SA), que obliga a citarla como fuente y a compartirla de la misma manera. Así se puede referenciar o transformar, dando crédito al esfuerzo de sus colaboradores voluntarios, y volver a licenciarla para su reutilización.

Esta tecnología legal es la que garantiza la sostenibilidad del proyecto colectivo, la que permitiría empezar de nuevo otra enciclopedia (libre) a partir de ella.

La disrupción de la inteligencia artificial generativa

Sin embargo, la licencia libre está sometida a desafíos. ChatGPT y muchos otros sistemas de inteligencia artificial (IA) generativa, apoyándose en la permisiva regulación sobre minería de texto y datos, son capaces de devolver conocimiento seminuevo bien sintetizado eludiendo la cita y el mantenimiento de la licencia libre, como una hamburguesa que no recuerda que viene de una vaca.

Este ejemplo maestro de capitalismo informativo ya ha levantado ampollas en los editores y creadores de contenido. Esto nos lleva a un dilema central: ¿cómo podemos proteger y promover la apertura y la reutilización del conocimiento sin obstaculizar la innovación y el desarrollo tecnológico?

Hay otro caso más extremo, puesto recientemente de manifiesto por Zacchary McDowell y Matthew Vetter, sobre los millones de datos libres y organizados servidos desde Wikidata, cuyo uso tiene el potencial de incrementar la calidad de comprensión de cualquier sistema de IA, especialmente los de propósito general y conversacionales.

Los autores identifican lo que llaman el “Wikidata‘s Turn”. Este implica que, al ser datos con licencia CC0 –de dominio público–, se pueden reutilizar sin ninguna limitación: sin cita y sin devolución.

Barra libre para minería de datos

En este contexto, la Fundación Wikimedia acaba de decidir publicar conjuntos de datos afinados para el entrenamiento de IA generativa, en parte en respuesta ante el desproporcionado aumento del tráfico de bots en su plataforma. Nos referimos a aplicaciones de rastreo lanzadas desde los grandes proveedores de servicios de inteligencia artificial generativa, para recorrer, leer y procesar cada página con el fin de obtener conocimiento de calidad humana,. Es lo que se ha bautizado como la “invasión de los crawlers”.

El movimiento de Wikipedia, que estratégicamente denomina Knowledge as a service –“conocimiento como un servicio”–, supone para unos una forma de ordenar el descontrol. Pero, para otros, es una cesión excesiva ante corporaciones tecnológicas del capitalismo cognitivo que no contribuyen ni con trabajo ni con financiación.

Esta barra libre tiene consecuencias que pueden romper la “cadena de sentido” de la producción colaborativa de buena fe, como se aprecia en el reciente informe The Common(s) Cause, fruto de la reflexión conjunta de entidades como Creative Commons, Open Knowledge Foundation, Open Future y Wikimedia Europe.

El trabajo de editores voluntarios, pensado para el bien común y la continuidad del proyecto, puede convertirse en materia prima para que los gigantes tecnológicos construyan un nuevo modelo de negocio avanzado, derivado de la potencia de la IA generativa, que a su vez genere grandes diferencias entre quienes se la puedan permitir y quienes no.

Es dudoso que la motivación de los editores voluntarios de Wikipedia o Wikidata sea alimentar una mera base de datos de entrenamiento de IA.

Sostenible por licencia

Con los datos de Wikidata puede hacerse cualquier cosa, porque tienen licencia de cesión al dominio público, y esto incluye riesgos de prácticas extractivas de sobreexplotación y degradación del proyecto colectivo.

Esto anima al debate informado sobre cómo la elección de una licencia para el contenido, datos y metadatos contiene un potencial crítico para asegurar la sostenibilidad y equidad del conocimiento libre.

Twenty Years of Creative Commons (in Sixty Seconds), de Ryan Junell y Glenn Otis Brown para Creative Commons.

¿Estamos asistiendo a una “realienación” del conocimiento comunitario, donde los creadores pierden el control sobre su trabajo? ¿Cómo podemos garantizar que el conocimiento libre no se convierta simplemente en otra fuente de explotación por parte de las grandes corporaciones tecnológicas?

Las comunidades que construyen y mantienen estos proyectos no debe ser vistas simplemente como una fuente de mano de obra gratuita para la producción de datos, sino como un colectivo con voz y agencia en cómo se utiliza su trabajo.

Este enfoque centrado en la comunidad es vital para asegurar que el conocimiento libre no se explote y privatice generando nuevas brechas digitales.

Tomas Saorín es miembro activo de Wikimedia España, asociación para el conocimiento libre.