Reconocimiento de comandos de voz en español orientado al control de una silla de ruedas

Gil Vásquez, Lily Jhohana

Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.autonoma.edu.co/handle/11182/868

Título :	Reconocimiento de comandos de voz en español orientado al control de una silla de ruedas
Autor:	Gil Vásquez, Lily Jhohana
Director(es):	Flórez Hurtado, Rubén Darío Castillo Ossa, Luis Fernando
Palabras claves:	Ingeniería artificial Automatización Control automático Sistemas de procesamiento de la voz
keywords:	Artificial engineering Automation Control automatic Voice processing systems
Editorial :	Universidad Autónoma de Manizales
Resumen:	El propósito de un sistema de reconocimiento del habla es tomar como entrada la forma de onda acústica de la voz humana y producir como salida una cadena de palabras equivalente [1]. Para lograr dicho resultado, la señal de voz ingresa a un módulo de procesamiento de señales en el que se extraen los vectores de características sobresalientes que son enviados posteriormente al decodificador; el decodificador utiliza tanto un modelo acústico como un modelo de lenguaje para generar finalmente la secuencia de palabras que tienen la máxima probabilidad de asemejarse a los vectores de características de entrada [2]. El modelo acústico es esencial para definir el comportamiento del sistema, este se obtiene con corpus de habla (ficheros de voz que contienen los datos de una amplia población de oradores con su correspondiente transcripción) de voces recogidas en el mismo idioma en el que se realizará el reconocimiento, mientras más robusto sea el corpus mejor será su desempeño. Si bien existen varias herramientas de software para realizar desarrollos con reconocimiento del habla, el hecho de que este proyecto es desarrollado para comandos en español limita su escogencia y finalmente se opta por hacer el desarrollo con el SAPI de Microsoft que para este idioma ya tiene un desarrollo importante. Otras herramientas como “Julius” solo ponen a disposición modelos acústicos completos en japonés o en otros pocos idiomas principalmente el inglés.
Abstract:	The purpose of a speech recognition system is to take the acoustic waveform of the human voice as input and produce an equivalent word string as output [1]. To achieve this result, the voice signal enters a signal processing module in which the vectors with outstanding characteristics are extracted and subsequently sent to the decoder; the decoder uses both an acoustic model and a language model to finally generate the sequence of words that are most likely to resemble the input feature vectors [2]. The acoustic model is essential to define the behavior of the system, this is obtained with speech corpus (voice files that contain the data of a large population of speakers with their corresponding transcription) of voices collected in the same language in which it will be performed. recognition, the more robust the corpus, the better its performance. Although there are several software tools to carry out development with speech recognition, the fact that this project is developed for commands in Spanish limits its choice and finally it is decided to do the development with Microsoft's SAPI, which for this language already has a important development. Other tools such as "Julius" only make available complete acoustic models in Japanese or in a few other languages, mainly English.
URI :	https://repositorio.autonoma.edu.co/handle/11182/868
Aparece en las colecciones:	Maestría en Mecatrónica y Control

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
Reconocimiento_comandos_voz_español_orientado_control_silla_ruedas.pdf	Texto completo	4,58 MB	Adobe PDF	Visualizar/Abrir
Auto_Reconocimiento_comandos_voz_español_orientado_control_silla_ruedas.pdf	Autorización	852,51 kB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons

REPOUAM

almacena y facilita el acceso abierto a todo tipo de contenido digital incluyendo texto, imágenes, vídeos y colecciones de datos.