btc

BTCClicks.com Banner

jueves, 20 de julio de 2017

Mozilla lanza motor de reconocimiento de voz de código abierto



La Fundación Mozilla, creadores del navegador Firefox, lanzaron un nuevo proyecto llamado Common Voice, que la organización espera convertir en el primer motor de reconocimiento de voz de código abierto del mercado.
Mozilla lanzó Common Voice a mediados de junio y el proyecto se encuentra actualmente en fase de capacitación. La organización pide a los usuarios que ayuden a entrenar el motor leyendo pequeños fragmentos de texto o verificando la exactitud de las grabaciones de voz anteriores.
Mozilla quiere que su voz capacite a su motor de reconocimiento de voz
El objetivo es recolectar al menos 10.000 horas de grabaciones de voz que los ingenieros de Mozilla creen que serían suficientes para entrenar su sistema de reconocimiento de voz. Mozilla dijo que planea lanzar la base de datos Common Voice en código abierto más tarde en 2017.
“Creemos que esto ayuda a la innovación”, dice Mozilla, “por lo que estamos lanzando Project Common Voice, un proyecto para ayudar a que el reconocimiento de voz se abra a todos”.


La organización dice que se embarcó en este proyecto debido a la falta de un sistema de reconocimiento de voz de código abierto en el mercado.
Actualmente, todos los motores de reconocimiento de voz están cerrados detrás de código propietario en varias compañías, como Amazon (Alexa), Apple (Siri) y Microsoft (Cortana), por nombrar sólo algunos.
Motor de reconocimiento de voz de código abierto ayudará a los pequeños desarrolladores
Common Voice propone proporcionar una tecnología de reconocimiento de voz accesible a desarrolladores normales que no pueden permitirse invertir miles de millones en tecnologías parecidas a Cortana.
Los usuarios que quieran contribuir con su voz a la base de datos de Voz Común pueden hacerlo en el sitio web del proyecto. No necesitan micrófonos de lujo ni habitaciones insonorizadas para leer los textos suministrados. Los ingenieros de Mozilla dicen que quieren recopilar datos de entornos del mundo real, por lo que está bien si hay ruido de fondo o el usuario tiene un acento. Los textos que los usuarios deben leer están en inglés.