MADRID, 5 (Portaltic/EP)
Facebook ha desarrollado SEER, una nueva tecnología de visión computerizada que se supervisa a sí misma y que mejora el rendimiento de los sistemas actuales, alcanzando una precisión del 84,2 por ciento.
SEER, siglas de SElf-supERvised, autosupervisado en inglés, es una herramienta que permite entrenar una Inteligencia Artificial (IA) directamente a partir de cualquier información que se le quiera dar, frente a los mecanismos de IA actuales, en los que hay que entrenarlos con un elevado número de datos clasificados, muchas veces por personas.
Según ha informado Facebook en un comunicado, SEER es un modelo de visión computerizada entrenado con hasta mil millones de datos y puede aprender de cualquier grupo de imágenes aleatorias presentes en Internet.
https://ai.facebook.com/blog/seer-the-start-of-a-more-powerful-flexible-and-accessible-era-for-computer-vision
El funcionamiento de SEER le permite tener un rendimiento que supera a las tecnologías autosupervisadas actuales, con una precisión a la hora de identificar imágenes del 84,2 por ciento utilizando la base de datos ImageNet.
Asimismo, el sistema de visión computerizada de Facebook mejora el rendimiento en otras tareas como la detección de objetos y la clasificación y segmentación de imágenes.
Cuando se entrena con solo el 10 por ciento de los ejemplos de la base de datos de ImageNet, SEER logra una precisión del 77,9 por ciento sobre el total de las imágenes. Si se reduce al 1 por ciento las imágenes con las que se entrena la IA, la precisión pasa a ser del 60,5 por ciento.
Para el entrenamiento de SEER, Facebook ha utilizado un nuevo algoritmo, conocido como SwAV, que permite organizar imágenes en función de sus similitudes visuales, y que permite reducir hasta en seis veces el tiempo de entrenamiento necesario.
Facebook ha reivindicado el uso de este tipo de sistemas de visión computerizada autosupervisados para mejorar la inclusión de las personas y ampliar los casos de uso, y ha puesto a disposición la bibliotecas de imágenes utilizadas por SEER, VISSL, en forma de código abierto.
But using self-supervision for vision problems is different than for language. With text, semantic concepts are broken up into discrete words. But with images, the algorithm must decide which pixel belongs to which concept