Los investigadores de Intel enseñan a las computadoras a ‘leer los labios’para mejorar la exactitud del software de reconocimiento del habla

8 Ene 2004 en Servidores

Los investigadores de Intel Corporation han lanzado un software bajo una licencia de fuente abierta que permite a los desarrolladores construir computadoras que ven y
‘leen los labios’ como lo hacen los seres humanos para entender mejor los
comandos hablados.
Los actuales algoritmos de reconocimiento del habla funcionan bien cuando se
eliminan los ruidos de fondo o cuando se utilizan auriculares bien sintonizados, pero su exactitud rápidamente se distorsiona cuando las aplicaciones tienen que lidiar con ambientes ruidosos, como los lugares públicos. Combinado con los algoritmos de detección de rostros de la biblioteca OpenCV de visión para computadoras de Intel, el software de Reconocimiento Audio/ Visual del Habla (Audio Visual Speech Recognition o AVSR) hace que las computadoras puedan detectar el rostro de la persona que
habla y rastrear los movimientos de su boca. El sincronizar los datos de video con la identificación del habla permite un reconocimiento más exacto del habla, mejorando así una amplia variedad de aplicaciones en ambientes ruidosos. El software de AVSR es parte de la biblioteca OpenCV de visión para computadoras de Intel, un conjunto de herramientas de más de 500 funciones de imagen que ayuda a los desarrolladores a desarrollar aplicaciones de visión para computadoras.
“Intel desea desarrollar tecnología que permita que las computadoras interactúen naturalmente con el mundo del mismo modo que lo hacen los seres humanos. El reconocimiento humano rara vez se basa en un solo tipo de información. Tomamos decisiones mediante la combinación de información proveniente de una variedad de fuentes”, dijo Justin Rattner, miembro senior de Intel, Grupo de Plataformas para Empresas y director de los Laboratorios de Investigación de Microprocesadores de Intel. “La incorporación del código de Reconocimiento Audio/ Visual del Habla a la biblioteca OpenCV de Intel seguramente impulsará la investigación y desarrollo en el área del
reconocimiento del habla asistido por la visión”.

Acelerar la investigación de nuevos usos
Los microprocesadores más veloces, la caída en el precio de las cámaras y el ancho de banda para la captura de video diez veces mayor que ofrecen tecnologías como USB2 están haciendo posible que los algoritmos de visión para computadoras en tiempo real puedan funcionar en PCs convencionales. El OpenCV está diseñado para aumentar la innovación en esta área mediante el suministro de código fuente para una amplia gama de funciones de imagen y visión para computadoras. Desde su lanzamiento en el 2000, OpenCV ha visto más de 500.000 descargas de código y ha atraído a más de 5.000 miembros registrados a su grupo de usuarios.

Los desarrolladores están utilizando el código de OpenCV en aplicaciones que van desde juguetes hasta la fabricación industrial. El software incluye el código fuente C para toda la funcionalidad de la biblioteca y una licencia de redistribución libre de regalías. Se puede obtener información acerca de AVSR en www.intel.com/research/mrl/research/avcsr.htm. La página Web de OpenCV se encuentra en www.intel.com/research/mrl/research/opencv. Aquellas personas interesadas en unirse al grupo de usuarios pueden inscribirse en groups.yahoo.com y luego pueden suscribirse enviando un e-mail a OpenCV a subscribe@yahoogroups.com.