Incorporación de un reconocedor automático de voz local sobre plataformas Android

Blasco Arnaiz, Santiago

Por favor, use este identificador para citar o enlazar este ítem:http://uvadoc.uva.es/handle/10324/44146

Título

Incorporación de un reconocedor automático de voz local sobre plataformas Android

Autor

Blasco Arnaiz, Santiago

Director o Tutor

Cardeñoso Payo, Valentín

Editor

Universidad de Valladolid. Escuela de Ingeniería Informática de Valladolid

Año del Documento

2020

Titulación

Grado en Ingeniería Informática

Resumen

Hoy en día, todos tenemos al alcance de nuestra mano un smartphone capaz de transcribir nuestras palabras, es habitual que estos reconocedores de voz necesiten una conexión a internet para llevar a cabo esta función ya que no es nuestro dispositivo el que realiza ese reconocimiento, él sólo se encarga de enviar el audio y recibir la transcripción. Este trabajo tiene como objetivo implementar un reconocedor automático de voz local, es decir, la creación de una aplicación Android capaz de reconocer palabras o frases sin necesitar acceso a internet para llevar a cabo esta función. Para crear este reconocedor se utilizará el software proporcionado por Kaldi ya que proporciona herramientas para trabajar con redes neuronales profundas, que pueden ser entrenadas de forma eficiente mediante procesamiento por GPU, y también con modelos ocultos de Markov, juntos sirven para generar modelos de lenguaje y actuar como reconocedores automáticos del habla. Para utilizar el modelo que generamos con la herramienta ya mencionada utilizaremos la API de VOSK, que nos proporciona métodos para crear y usar dicho modelo.

Today, we all have at our reach a smartphone able of transcribing our words, it is common for these voice recognizers to need an internet connection to carry out this function because it is not our device which performs this recognition, this only takes care of sending the audio and receiving the transcription. This work aims to implement an automatic local voice recognizer, that is, the creation of an Android application able to recognize words or phrases without needing internet access to carry out this function. To create this recognizer, the software provided by Kaldi will be used as it provides tools to work with deep neural networks, which can be eficiently trained through GPU processing, and also with hidden Markov models, together they serve to generate language models and act as automatic speech recognizers. To use the model that we generate with the previously mentioned tool, we will use the VOSK API, which provides us methods to create and use models.

Palabras Clave

Reconocimiento automático del habla

Modelo de lenguaje

Modelos ocultos de Markov