Este es el primero de una serie de tres artículos en los que compartiré el proceso de investigación y desarrollo de TADEO Text Alt, una tecnología que combina inteligencia artificial y accesibilidad para asistir en la generación de textos alternativos para imágenes.
En Globallys tuvimos la oportunidad de adjudicarnos un fondo de Startup Ciencia de ANID, una iniciativa impulsada por la Agencia Nacional de Investigación y Desarrollo para apoyar proyectos de base científico-tecnológica con potencial de generar soluciones innovadoras y escalables.
La semana pasada dimos por finalizado este proyecto y quisiera compartir qué fue exactamente lo que desarrollamos. Lo hago también a propósito de una discusión que ha surgido recientemente sobre el valor de la investigación y el rol que cumplen los fondos públicos destinados a ciencia y tecnología.
A veces la investigación se evalúa únicamente por su capacidad de generar empleo o producir resultados visibles en el corto plazo. Sin embargo, su propósito principal es generar conocimiento y desarrollar soluciones para problemas concretos de la sociedad. En nuestro caso, ese problema era la dificultad que enfrentan millones de personas ciegas y con baja visión para acceder a la información visual en internet.
El desafío que abordamos puede parecer pequeño, pero tiene un impacto profundo en la vida cotidiana de muchas personas: lograr que las imágenes presentes en sitios web, aplicaciones y documentos digitales cuenten con descripciones adecuadas para que puedan ser interpretadas correctamente por lectores de pantalla y otras tecnologías de apoyo.
Ese elemento se conoce como texto alternativo, o alt text, y constituye uno de los pilares fundamentales de la accesibilidad digital. Detrás de una etiqueta aparentemente simple hay una pregunta fundamental: ¿cómo aseguramos que la información visual también pueda ser comprendida por quienes no pueden verla? En el fondo, se trata de garantizar experiencias equivalentes para todas las personas, independientemente de cómo accedan a la información.
Esa fue la pregunta que guió nuestro proyecto de investigación. La respuesta nos llevó a combinar accesibilidad, inteligencia artificial y experiencia de usuario para desarrollar una tecnología capaz de asistir en la generación automática de descripciones de imágenes, contribuyendo así a construir una web más inclusiva para todas las personas.
Definiendo el texto alternativo
Partamos por lo básico: ¿qué es un texto alternativo?
El texto alternativo es una descripción textual que comunica el significado o la función de una imagen. Aunque no es visible en pantalla, queda incorporado en el código o en los metadatos del documento y puede ser interpretado por lectores de pantalla y otras tecnologías de apoyo.
En principio podría parecer una tarea sencilla. Y, en efecto, desde el punto de vista técnico, agregar un atributo alt a una imagen es una acción bastante simple. Sin embargo, en la práctica, gran parte de los sitios web, aplicaciones, correos electrónicos, presentaciones y documentos digitales no incluyen textos alternativos adecuados. Y cuando sí existen, no siempre cumplen su propósito.
Muchos equipos afirman que ya incorporan texto alternativo en sus contenidos. La pregunta relevante, sin embargo, no es solo si lo hacen, sino si esas descripciones realmente permiten comprender la información que la imagen transmite. ¿Se redactaron considerando el contexto? ¿Describen lo verdaderamente importante? ¿Han sido validadas con personas usuarias de lectores de pantalla?
Responder correctamente estas preguntas requiere comprender que el texto alternativo es una herramienta de comunicación.
Lo que he notado es que el comercio electrónico repite el nombre del producto en todas las imágenes de la galería de producto. Se podrán imaginar que esto no solo es completamente inútil para quienes requieren del texto alternativo, sino que también es tedioso y de alguna manera se traduce en secuestrar el tiempo de las personas usuarias. Me cuestiono si no debiera ser considerado un patrón engañoso.
Y claro, es mucho más simple y barato añadir un script que inserte el nombre del producto en el texto alternativo de cada imagen. El problema es que eso no sirve.
El World Wide Web Consortium (W3C) dispone de un completo tutorial sobre imágenes y texto alternativo, donde se explica cómo abordar distintos tipos de imágenes: informativas, decorativas, funcionales, con texto, complejas, grupos de imágenes y mapas de imágenes. Esta materia es especialmente relevante porque el texto alternativo está en la base del primer criterio de éxito de las Web Content Accessibility Guidelines (WCAG) 2.2: el criterio 1.1.1, “Contenido no textual”.
En términos simples, este criterio establece que toda información que no se presenta como texto debe contar con una alternativa textual equivalente, de modo que pueda ser percibida y comprendida por cualquier persona, independientemente de la tecnología que utilice para acceder al contenido.
Tipos de imágenes
Antes de explicar qué desarrollamos en Globallys con el fondo adjudicado, es necesario comprender un aspecto fundamental del texto alternativo: no todas las imágenes cumplen la misma función. Esa distinción es clave.
El criterio 1.1.1 de las WCAG parte de una idea simple, pero fundamental: el texto alternativo debe cumplir la misma función que la imagen a la que reemplaza. Esto significa que no existe una única forma correcta de describir imágenes. Una fotografía puede requerir una descripción detallada; un ícono, únicamente el nombre de la acción que representa; y una imagen decorativa, en muchos casos, no debería describirse en absoluto. En algunos casos la imagen comunica información y debe describirse con precisión; en otros actúa como un botón o enlace, por lo que el texto alternativo debe indicar su propósito. También existen situaciones más complejas, como gráficos, CAPTCHA, pruebas, contenido audiovisual o elementos diseñados para producir una experiencia sensorial. Lo importante no es memorizar el criterio, sino comprender el contexto en que aparece la imagen y el propósito que cumple dentro de la experiencia de usuario para definir un texto alternativo que sea realmente útil.
Escribir un buen texto alternativo no consiste únicamente en reconocer qué aparece en la imagen, sino en comprender para qué está allí.
Precisamente ahí es donde nace nuestro proyecto.
Imaginemos una fotografía donde aparece una mujer usando un chaleco rojo. Un modelo de inteligencia artificial podría describirla como “mujer con chaleco rojo sonriendo a la cámara”. Sin embargo, esa descripción puede ser insuficiente o incluso incorrecta dependiendo del contexto.
Si la imagen corresponde al sitio web de una universidad, y la persona es la decana de una facultad, lo relevante no es la prenda que viste, sino la persona en sí.
Si la misma imagen aparece en una tienda de ropa, lo importante es el producto que se está ofreciendo.
Si se trata de una imagen decorativa en una campaña publicitaria, tal vez no debería tener texto alternativo en absoluto.
La imagen es la misma. Lo que cambia es su propósito.
Y precisamente allí radicaba el desafío de nuestro proyecto: no bastaba con que la inteligencia artificial describiera lo que aparece en la imagen. Necesitábamos que también entendiera el contexto que la rodea: el título de la página, el texto cercano, la estructura del sitio y la función que la imagen cumple dentro de la experiencia.
Solo combinando reconocimiento visual con comprensión contextual es posible determinar a qué categoría pertenece una imagen y, en consecuencia, generar un texto alternativo que sea realmente útil para quienes utilizan lectores de pantalla.
Entrenando modelos
Como suele ocurrir en la investigación aplicada, no tenía sentido reinventar una tecnología que ya existía. Nuestro objetivo no era desarrollar un nuevo modelo de inteligencia artificial para reconocer imágenes, sino aprovechar modelos disponibles y conectarlos con el conocimiento que ya habíamos acumulado en TADEO.
TADEO, acrónimo de Test de Accesibilidad Digital en Español y Online, es la plataforma que desarrollamos en Globallys con el apoyo de CORFO a través de los programas Crea y Valida 2022, Semilla Inicia Mujer 2022 y Semilla Expande 2023. A diferencia de los modelos de inteligencia artificial, que analizan únicamente el contenido visual, TADEO interpreta el contexto en que aparece cada imagen: el contenido de la página, la estructura del documento y la función que cumple dentro de la experiencia de usuario. Hasta ahora podía identificar la presencia de una imagen y determinar qué tipo de texto alternativo requería, pero no recomendarlo. Hoy, gracias a la incorporación de inteligencia artificial, también puede hacerlo.
El contexto es fundamental para determinar qué tipo de imagen estamos observando y qué texto alternativo corresponde generar. Entonces, el modelo aporta la capacidad de describir lo que aparece en la imagen, mientras que TADEO aporta las reglas y el contexto necesarios para decidir qué información es realmente relevante.
Lo que hicimos, en esencia, fue conectar ambas capacidades. La innovación no está en el modelo en sí, sino en la forma en que integramos inteligencia artificial y accesibilidad para producir descripciones útiles. Los detalles específicos de esa integración forman parte de un proceso de protección comercial actualmente en curso.
De TADEO hablaremos con más detalle en otro artículo porque hasta ahora es la primera vez que hablo de él.
El primer paso fue confirmar la viabilidad técnica del proyecto. Evaluamos si los modelos multimodales disponibles, tanto comerciales como de código abierto, eran capaces de describir imágenes con el nivel de precisión necesario para transmitir información relevante a personas con discapacidad visual.
Los resultados fueron alentadores. Comprobamos que los modelos actuales pueden generar descripciones de buena calidad, pero también observamos diferencias importantes en términos de precisión, costo y tendencia a “alucinar”, es decir, inventar detalles que no están presentes en la imagen.
Esto fue especialmente llamativo. En algunos casos, los modelos devolvían incluso las medidas de una prenda o los materiales de su relleno, información que simplemente no podía inferirse a partir de la imagen. Por un momento pensé que el modelo reconocía la marca y consultaba la tienda oficial, pero no, ¡estaba inventando! Tuvimos que realizar numerosos ajustes al prompt para reducir este comportamiento.
Con esa base, diseñamos una plataforma que nos permitió comparar directamente distintos modelos utilizando un mismo conjunto de imágenes.
La comparación no se limitó a identificar cuál producía la descripción más cercana. Buscábamos un modelo que equilibrara tres variables fundamentales: precisión, baja tasa de alucinaciones y costos de operación razonables para un uso masivo.
Una vez seleccionada la mejor configuración técnica, el siguiente paso fue validar si las descripciones realmente resultaban útiles para quienes utilizan lectores de pantalla.
En el próximo artículo compartiré uno de los aprendizajes más importantes de todo este proyecto: qué ocurrió cuando expusimos nuestros resultados a personas ciegas y con baja visión, y cómo esa experiencia transformó por completo nuestra comprensión de lo que hace que un texto alternativo sea realmente útil.