Los cimientos de la Inteligencia Artificial están plagados de errores

inteligencia artificial errores.jpg

El auge actual de la inteligencia artificial se remonta a 2012 y un gran avance durante un desafío construido alrededor de ImageNet, un conjunto de 14 millones de imágenes etiquetadas. En este desafio, un método de machine learning llamado aprendizaje profundo, que se basa en proporcionar ejemplos a una enorme red neuronal, demostró ser significativamente mejor para identificar objetos en imágenes que otros enfoques.

Ese resultado en la competición de 2012 impulsó el uso de la inteligencia artificial para resolver diferentes problemas.

La investigación publicada esta semana muestra que ImageNet y otros nueve conjuntos de datos muy utilizados en inteligencia artificial contienen muchos errores.

Los investigadores del MIT compararon cómo un algoritmo de inteligencia artificial entrenado con un conjunto de datos interpreta una imagen con la etiqueta que se le aplicó en dicho conjunto. Si, por ejemplo, un algoritmo decide que una imagen tiene un 70% de probabilidades de ser un gato, pero la etiqueta asignada a la imagen dice “cuchara”, entonces es probable que la imagen esté mal etiquetada y muestre realmente un gato. Para comprobar esto, es decir los casos en los que el algoritmo y la etiqueta de la imagen no eran iguales, los investigadores mostraron esa misma imagen a más personas.

ImageNet y otros conjuntos de imágenes muy utilizados en big data son clave para la forma en que se construyen y prueban los sistemas de inteligencia artificial. Incluidos los que se utilizan en coches autónomos, dispositivos de imágenes médicas y sistemas de calificación crediticia. Pero también pueden ser un eslabón débil. Por lo general, los datos son recopilados y etiquetados por trabajadores con salarios bajos, y se están acumulando investigaciones sobre los problemas que presenta este método.

Los algoritmos pueden mostrar sesgos en el reconocimiento de rostros, por ejemplo, si están entrenados con datos que son abrumadoramente blancos y masculinos. Los etiquetadores también pueden introducir sesgos si, por ejemplo, deciden que las mujeres que aparecen en entornos médicos tienen más probabilidades de ser “enfermeras”, mientras que los hombres tienen más probabilidades de ser “médicos”. Es por esto que si en el entrenamiento de modelos de redes neuronales se utilizan datos con ciertos sesgos posteriormente podrían aparecer errores en las predicciones de estos modelos. Los datos de entrada para el entrenamiento de un algoritmo de integligencia artificial son los cimientos sobre los que se construye este algoritmo.

Investigaciones recientes también han destacado cómo los errores básicos que se presentan en los datos usados para entrenar y probar los modelos de inteligencia artificial (las predicciones producidas por un algoritmo) pueden disfrazar cómo de buenos o malos son esos modelos.

“Lo que este trabajo le está diciendo al mundo es que es necesario eliminar los errores”, dice Curtis Northcutt, un estudiante de doctorado en el MIT que dirigió el nuevo trabajo. “De lo contrario, los modelos que alguien cree que son los mejores para su problema empresarial del mundo real podrían estar equivocados”.

Aleksander Madry, profesor del MIT, también intentó identificar problemas en conjuntos de datos de imágenes el año pasado y no participó en el nuevo trabajo publicado. Él dice que este trabajo destaca un problema importante, aunque dice que la metodología debe estudiarse cuidadosamente para determinar si los errores son tan frecuentes como sugiere el nuevo trabajo.

Se utilizan grandes conjuntos de datos similares para desarrollar algoritmos para diversos usos industriales de la inteligencia artificial. Millones de imágenes anotadas de escenas de la carretera, por ejemplo, se utilizan para entrenar algoritmos que ayudan a los coches autónomos a percibir obstáculos en la carretera. Las grandes colecciones de registros médicos etiquetados también ayudan a los algoritmos a predecir la probabilidad de que una persona desarrolle una enfermedad en particular.

Tales errores pueden llevar a los ingenieros de aprendizaje automático por el camino equivocado al elegir entre diferentes modelos de IA. “De hecho, podrían elegir el modelo que tiene un peor desempeño en el mundo real”, dice Northcutt.

“Lo que este trabajo le está diciendo al mundo es que es necesario eliminar los errores”.
Curtis Northcutt, estudiante de doctorado, MIT

Northcutt señala los algoritmos usados para identificar objetos en la carretera delante de coches autónomos como un ejemplo de un sistema crítico que podría no funcionar tan bien como creen sus desarrolladores.

No es de extrañar que los conjuntos de datos usados en inteligencia artificial contengan errores, dado que las anotaciones y etiquetas suelen ser aplicadas por trabajadores que en la mayoría de ocasiones no están bien pagados. Esto es algo así como un secreto a voces en la investigación de la IA, pero pocos investigadores han intentado determinar la frecuencia de tales errores. Tampoco se ha demostrado el efecto sobre el rendimiento de diferentes modelos de IA.

Los investigadores del MIT examinaron el conjunto de datos de prueba de ImageNet, el subconjunto de imágenes utilizadas para probar un algoritmo entrenado, y encontraron etiquetas incorrectas en el 6% de las imágenes. Encontraron una proporción similar de errores en los conjuntos de datos utilizados para entrenar programas de inteligencia artificial para medir qué tan positivas o negativas son las reseñas de películas, cuántas estrellas recibirá una reseña de un producto, o qué muestra un video, entre otros.

Estos conjuntos de datos de IA se han utilizado para entrenar algoritmos y medir el progreso en áreas que incluyen la visión por computadora y la comprensión del lenguaje natural. El trabajo muestra que la presencia de estos errores en el conjunto de datos de prueba hace que sea difícil medir qué tan bueno se compara un algoritmo con otro. Por ejemplo, un algoritmo diseñado para detectar a los peatones podría funcionar peor cuando se eliminan las etiquetas incorrectas. Puede que no parezca mucho, pero podría tener grandes consecuencias para el rendimiento de un coche autónomo.

Después de un período de intensa exageración tras el avance de ImageNet de 2012, se ha vuelto cada vez más claro que los algoritmos modernos de inteligencia artificial pueden sufrir problemas como resultado de los datos de entrada que reciben para su entrenamiento. Algunos dicen que todo el concepto de etiquetado de datos también es problemático. “En el corazón del aprendizaje supervisado, especialmente en la visión, se encuentra esta idea difusa de una etiqueta”, dice Vinay Prabhu, un investigador de aprendizaje automático que trabaja para la empresa UnifyID.

En junio pasado, Prabhu y Abeba Birhane, un estudiante de doctoradoent en University College Dublin, revisó ImageNet y encontró errores, lenguaje abusivo e información de identificación personal.

Prabhu señala que las etiquetas a menudo no pueden describir completamente una imagen que contiene múltiples objetos, por ejemplo. También dice que es problemático si los etiquetadores pueden agregar juicios sobre la profesión, nacionalidad o carácter de una persona, como fue el caso de ImageNet.

Noticias relacionadas

Inicio