sábado, 29 de junio de 2013
A google le resulta fácil el castellano, pero difícil el catalán
El ingeniero español Pedro Moreno, jefe de investigación de reconocimiento de voz del buscador, descubre cómo funciona la herramienta y desvela por dónde irá su revolucionario futuro
ABC
Pedro Moreno, ingeniero de Google, en las oficinas de la compañía en Nueva York
«La voz es una forma de interactuar con las computadoras muy natural y fantástica para controlar desde la televisión hasta la lavadora». El ingeniero español Pedro Moreno, responsable del área de investigación de reconocimiento de voz de Google, tiene claro que esta tecnología tiene «mucho futuro» y es actualmente una «tendencia muy clara».
Por su departamento, compuesto de unos sesenta empleados, nacen las palabras que luego, posteriormente, integrará el buscador y que permite que reconozca en la actualidad hasta 44 idiomas -cuatro nuevos, próximamente- entre ellos el español, el catalán, el gallego o el euskera, pero donde también tiene presencia algunos africanos. El objetivo es llegar a cubrir las 300 lenguas del mundo que tienen más de un millón de habitantes.
¿Cómo es capaz Google de entender lo que un usuario dice? El algoritmo desarrollado y la base de datos creada para tal fin permite que evitemos teclear desde un dispositivo móvil y, en su lugar, lo hagamos con nuestra voz. Un modelo de probabilidades de palabras a las que seguirían otras palabras permite desarrollar una frecuencia que generará el resultado. «Si la primera palabra es ‘real’ es bastante probable que la siguiente sea ‘Madrid’ y no ‘Columbia’», explica a este diario el ingeniero de 49 años.
Con números de escándalo, el sistema «se entrena continuamente» con un paquete de 3.000 horas de audio y diariamente se procesan más de 10 años de audio. Así, Google Now,el asistente personal inteligente disponible para el sistema operativo Android y iOS, pretende dar un paso más en esta tecnología de reconocimiento de voz que también se puede encontrar en el dispositivo de realidad aumentada Google Glass y que representa una forma de interactuar «muy natural».
El reconocimiento de voz conlleva tres partes bien diferenciadas: módulo acústico, léxico y lingüístico. «Luego le aplicamos técnicas de inteligencia artificial», señala. Para ello, hay que elaborar una serie de reglas que dependen del idioma. «El euskera o el castellano son muy fáciles de pronunciar y expresar con reglas, el catalán es complejo. Hay idiomas que son difíciles de predecir y hay que hacer recogida de datos como el inglés o los escandinavos». Cada fonema se traslada a un sonido de una palabra en concreto. «Es una parte compleja, tenemos equipos que están viajando por todo el mundo», comenta.
A su juicio, representa un cambio radical en la forma de interactuar con los ordenadores. «Lo que intentamos es que la interacción y el acceso a la información sea más natural y conversacional». Las implicaciones que esto tiene para los usuarios es muy grande. «El poder hablar a un teléfono y no teclear es fantástico, y disminuye las barreras de acceso a la tecnología de información», manifiesta. Amárico, suajili... otro de los retos de Google es centrarse en los mercados emergentes donde la tecnología llega con retraso. Los habitantes de aquellos países quizá no sepan escribir, pero saben hablar. «El reconocimiento por voz permite saltar esas limitaciones, tiene un potencial fantástico».
Tal vez algún día hablemos a las casas con total naturalidad y que estas nos escuchen, nos entiendan y nos ayuden a tener una vida más cómoda. Quizá la domótica y la inteligencia artificial se instauren en todos los edificios del mundo y nos comuniquemos con las máquinas. Las tecnologías del habla hace que hacer una búsqueda sea como hablarle con un amigo. «Queremos que la interacción de Google cambie de ser una caja blanca donde metes unas palabras a una interfaz conversacional». El objetivo a largo plazo es tener ese asistente virtual, pero en cualquier aparato, ya sea un reloj,un coche o incluso una lavadora.
Suscribirse a:
Enviar comentarios
(
Atom
)
0 comentarios :
Publicar un comentario