Lo que aprendimos al validar inteligencia artificial con personas ciegas

Este es el segundo de una serie de tres artículos sobre el desarrollo de TADEO Text Alt. En el artículo anterior expliqué cómo surgió esta investigación y por qué el texto alternativo es uno de los pilares de la accesibilidad digital. En esta segunda parte, compartiré lo que aprendimos al validar la tecnología con personas ciegas y con baja visión, y cómo sus observaciones redefinieron nuestra forma de entender qué hace que una descripción sea realmente útil.

Validando la tecnología con personas usuarias

Para validar los resultados generados, trabajamos en colaboración con la Fundación Luz, institución con una larga trayectoria en la formación e inclusión de personas con discapacidad visual. Diseñamos un proceso de validación que combinó encuestas y un taller presencial, con el propósito de comprender qué información resulta verdaderamente relevante al momento de describir un producto.

La primera encuesta

Nuestro primer instrumento fue una encuesta dirigida a personas con discapacidad visual. El objetivo inicial no era obtener resultados definitivos, sino validar el propio instrumento antes de distribuirlo de manera más amplia y asegurarnos de que las preguntas fueran comprensibles, pertinentes y capaces de capturar la información que necesitábamos.

Aunque se trataba de una etapa preliminar, la encuesta nos entregó información muy valiosa. Gracias a estas primeras respuestas pudimos identificar, por ejemplo:

  • La extensión recomendada de las descripciones.
  • Los atributos más relevantes según el tipo de producto.
  • Las categorías que debíamos considerar en el entrenamiento de los modelos.

Estos resultados cumplieron una doble función. Por una parte, nos permitieron ajustar y perfeccionar el cuestionario para su aplicación posterior. Por otra, aportaron insumos concretos para orientar el diseño del proyecto y definir con mayor precisión qué información debía ser priorizada por los modelos de inteligencia artificial.

Los resultados de esta encuesta fueron fundamentales para establecer las primeras hipótesis y tomar decisiones técnicas que influyeron en todo el desarrollo posterior.

Ajustando el alcance del proyecto

Originalmente, el fondo estaba enfocado en dos categorías de comercio electrónico: alimentos y vestuario. No obstante, las respuestas de esta primera encuesta mostraron que las personas también consideraban especialmente relevantes otras categorías, como juguetes, electrónica y farmacia.

Este hallazgo fue importante porque confirmó que el problema del texto alternativo no se limita a unos pocos rubros, sino que afecta transversalmente la experiencia de compra y acceso a información en múltiples industrias.

El taller presencial con Fundación Luz

Con los aprendizajes obtenidos, diseñamos un taller presencial en las dependencias de la Fundación Luz con la participación de personas ciegas y con baja visión.

El objetivo fue comparar textos alternativos generados por distintos modelos de inteligencia artificial con la experiencia sensorial directa de los productos. Las personas participantes pudieron explorar físicamente prendas de vestir, alimentos y otros objetos, y luego escuchar las descripciones generadas por los modelos sin saber cuál había producido cada una.

Evaluaron aspectos como:

  • Claridad.
  • Precisión.
  • Utilidad.
  • Nivel de detalle.
  • Información faltante o irrelevante.

Este ejercicio nos permitió confirmar algo fundamental: la calidad de un texto alternativo no depende únicamente de describir correctamente lo que aparece en la imagen, sino de seleccionar la información que realmente ayuda a comprender un producto y tomar decisiones.

Uno de los hallazgos más interesantes fue el nivel de detalle que las personas esperaban encontrar. En el caso del vestuario, no bastaba con saber que una prenda era negra. También querían saber si la tela era opaca, semibrillante o brillante; si era traslúcida; si la prenda era lisa o estampada; si incorporaba logotipos visibles; en qué contexto podría usarse —en la oficina, en un bar o en una fiesta— e incluso con qué otras prendas podía combinarse.

El grupo tenía un conocimiento sorprendentemente especializado sobre confección y diseño de ropa. Preguntaban por el tipo exacto de corte, la forma de las mangas, la delicadeza de la tela, la caída, el ajuste y las instrucciones de lavado. En el fondo, esperaban que la imagen transmitiera aquella información que normalmente no aparece en las descripciones de los productos (y que probablemente debería estar disponible).

Las conversaciones en torno al color fueron especialmente apasionantes. No es lo mismo mencionar un color a una persona que alguna vez lo ha visto que a alguien que nunca ha tenido experiencia visual de él. En esos casos, la pregunta ya no es sólo cómo se llama ese color, sino qué sensaciones transmite y con qué experiencias puede asociarse.

Durante el taller también descubrimos que algunas personas ya estaban utilizando herramientas de inteligencia artificial para analizar por su cuenta las imágenes de los productos y hacer preguntas adicionales. Esta práctica espontánea confirmó que existe una necesidad concreta de acceder a información más rica y contextualizada que la que hoy ofrecen la mayoría de los sitios de comercio electrónico. En lo personal me llama la atención que siempre el esfuerzo lo tengan que hacer las personas usuarias con discapacidad. ¿Cómo es que nadie ha observado este comportamiento?

Este hallazgo abrió una nueva línea de investigación: si una sola imagen puede entregar información limitada, ¿qué ocurriría si analizamos conjuntamente todas las imágenes de la galería de un producto? La respuesta fue prometedora. Al combinar distintas vistas —frontal, posterior, detalles de textura y etiquetas— es posible generar descripciones mucho más completas y útiles para apoyar decisiones de compra.

Todos estos hallazgos ampliaron nuestra comprensión del problema. Descubrimos que un buen texto alternativo no solo debe describir lo visible, sino anticipar las preguntas que una persona formularía si tuviera el producto en sus manos. Y eso transformó profundamente nuestra manera de entrenar y evaluar los modelos de inteligencia artificial.

La segunda encuesta

Después del taller rediseñamos la encuesta refinando las preguntas a partir de lo aprendido en las etapas anteriores.

Esta segunda versión nos permitió validar con mayor rigurosidad las tendencias observadas y obtener evidencia cuantitativa y cualitativa sobre las preferencias de las personas usuarias.

La encuesta derribó varios mitos. Participaron personas de diez países y con altos niveles de formación académica, incluyendo profesionales y personas con estudios de postgrado. Además, casi el 70% manifestó preferir descripciones muy detalladas, incluso si eran más largas. Esto contradice la idea de que quienes utilizan lectores de pantalla siempre prefieren textos breves. Cuando una imagen es relevante para una decisión de compra, lo que las personas buscan no es menos información, sino información suficiente para decidir con autonomía.

Esto nos llevó a una reflexión importante: tal vez las personas no están pidiendo textos alternativos excesivamente largos, sino intentando obtener, a través de ellos, la información que no encuentran en las descripciones de los productos. En muchos casos, la persona usuaria espera que el texto alternativo compense las carencias del propio comercio electrónico, que suele omitir detalles fundamentales para tomar decisiones de compra.

Lo más importante que aprendimos

Quizás la principal lección de este proceso fue recordar algo que en accesibilidad nunca debemos olvidar: no basta con construir tecnología; es indispensable validarla con las personas para quienes está destinada.

La inteligencia artificial puede generar descripciones impresionantes, pero solo las personas usuarias pueden decirnos si esas descripciones son realmente útiles.

Y esa diferencia es la que convierte un experimento tecnológico en una solución con sentido.

Sin embargo, el verdadero valor de esta tecnología no está en reemplazar el trabajo humano, sino en asistir a quienes diseñan, desarrollan y gestionan contenidos digitales. La inteligencia artificial puede ayudarnos a producir mejores descripciones en menos tiempo, pero la decisión final sobre qué información es relevante sigue dependiendo del criterio humano y, sobre todo, de la validación con las personas que utilizarán esa información.

Por esa razón decidimos no avanzar, por ahora, en la generación automática de descripciones comerciales completas a partir de galerías de imágenes. Aunque las pruebas demostraron que técnicamente es posible, consideramos que este tipo de herramientas debe utilizarse para fortalecer el trabajo de las personas y no para sustituirlo indiscriminadamente.

Mientras no exista una comprensión más madura de cómo integrar la inteligencia artificial como herramienta de apoyo, preferimos concentrarnos en un objetivo acotado, pero de alto impacto social: mejorar la generación de textos alternativos para hacer la web más accesible y fortalecer la autonomía de las personas usuarias.

Con la investigación concluida y la tecnología validada con personas usuarias, quedaba una última pregunta: ¿cómo transformar todo este conocimiento en una herramienta concreta que pudiera ser utilizada por organizaciones y equipos de contenido? En el tercer y último artículo compartiré qué desarrollamos con este proyecto y cómo integramos esta tecnología al ecosistema de TADEO.

Consuelo Correa

Proyecto apoyado por

Corfo
Innovo
OpenBeauchef
UDD Ventures