Publicado el 14 de Enero del 2017
1.880 visualizaciones desde el 14 de Enero del 2017
1,1 MB
88 paginas
Creado hace 15a (07/05/2008)
Universidad de San Carlos de Guatemala
Facultad de Ingeniería
Escuela de Ingeniería Mecánica Eléctrica
SISTEMA DE RECONOCIMIENTO DE VOZ EN MATLAB
Genoveva Velásquez Ramírez
Asesorado por el Ing. MsEE. PhD. Enrique Edmundo Ruiz Carballo
Guatemala, abril de 2008
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
FACULTAD DE INGENIERÍA
SISTEMA DE RECONOCIMIENTO DE VOZ EN MATLAB
TRABAJO DE GRADUACIÓN
PRESENTADO A LA JUNTA DIRECTIVA DE LA
FACULTAD DE INGENIERÍA
POR:
GENOVEVA VELÁSQUEZ RAMÍREZ
ASESORADO POR EL ING. MSEE. PHD. ENRIQUE EDMUNDO
RUIZ CARBALLO
AL CONFERÍRSELE EL TÍTULO DE
INGENIERA ELECTRÓNICA
GUATEMALA, ABRIL DE 2008
II
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA
FACULTAD DE INGENIERÍA
NÓMINA DE JUNTA DIRECTIVA
Ing. Murphy Olympo Paiz Recinos
Inga. Glenda Patrícia García Soria
Inga. Alba Maritza Guerrero de López
Ing. Miguel Ángel Dávila Calderón
Br. Kenneth Issur Estrada Ruiz
Inga. Marcia Ivonne Véliz Vargas
DECANO
VOCAL I
VOCAL II
VOCAL III
VOCAL IV
VOCAL V
SECRETARIA
TRIBUNAL QUE PRACTICÓ EL EXAMEN GENERAL PRIVADO
DECANO
EXAMINADOR
EXAMINADOR
EXAMINADOR
SECRETARIA
Ing. Murphy Olympo Paiz Recinos
Ing. Enrique Edmundo Ruiz Carballo
Ing. Luis Eduardo Durán Córdoba
Ing. Jose Alonso Rivera Carrillo
Inga. Marcia Ivonne Véliz Vargas
III
IV
V
VI
VII
VIII
DEDICATORIA
Dedico este trabajo a todas las personas que nunca han dejado de creer,
a las que han hecho historia con su lucha, a las que siempre han estado y a las
que siempre estarán.
IX
AGRADECIMIENTOS A:
Mi familia, en especial a mi mamá.
A San Judas Tadeo.
Al Ing. Enrique Ruiz Carballo
Mis amigos.
A la Universidad de San Carlos de Guatemala.
X
ÍNDICE GENERAL
ÍNDICE DE ILUSTRACIONES …………………………………………………. III
RESUMEN…………………………………………………………………………
V
OBJETIVOS ………………………………………………………….…………… VII
INTRODUCCIÓN………………………………………………………………….
IX
1. SISTEMA DE RECONOCIMIENTO DE VOZ
1
Componentes del sistema ………………………………..……....................
1
Micrófono ……………………………………………………..........................
4
1.1.1.1. Clasificación de los micrófonos……………………….
8
1.1.2. MATLAB………………………………………………………..
10
1.1.3. Señal de voz ……………………………………………….....
10
1.1.3.1. Breve anatomía del aparato fonatorio………………..
13
1.1.3.2. Formantes……………………………………………….
15
1.2. Procesamiento digital de señales…………………………………
15
1.2.1. Transformada discreta de Fourier…………………………..
15
1.2.1.1. Muestreando la transformada de Fourier…………….
1.2.1.2. Definición de la transformada discreta de Fourier…..
17
1.2.1.3. Propiedades de la transformada discreta de Fourier.. 18
1.2.2. Convolución circular………………………………………….. 20
1.2.3. Transformada rápida de Fourier…………………………….. 22
1.2.4. Ventaneo………………………………………………………. 23
2. RECONOCIMIENTO DE VOZ
2.1. Planteamiento del problema……………………………………….
2.2. Modelado de la voz…………………………………………………
27
27
I
31
32
32
35
36
36
37
38
41
46
47
48
49
53
55
57
63
2.3. Obtención de información mediante micrófono………………..
2.4. Preprocesado………………………………………………………
2.4.1. Muestreo y cuantificación……………………………….....
2.4.2. Eliminación del ruido……………………………………….
2.4.3. Filtro de Pre-Énfasis ……………………………………….
2.4.4. Segmentación.………………………………………………
2.5. Extracción de características……………………………………
2.5.1. Predicción lineal…………………………………………….
2.5.2. Cepstrum…………………………………………………….
2.6. Medidas de distancia……………………………………………..
3. PROGRAMA DE RECONOCIMIENTO DE VOZ
3.1. Diagrama de bloques del sistema………………………………
3.2. Resultados de evaluación……………………………………….
3.3. Programa………………………………………………………….
CONCLUSIONES……………………………………………………………….
RECOMENDACIONES…………………………………………………………
BIBLIOGRAFÍA…………………………………………………………………
APÉNDICE………………………………………………………………………
II
ÍNDICE DE ILUSTRACIONES
FIGURAS
4
Patrón omnidireccional………………………………………………...
1.
5
Patrón bidireccional………………………………………………........
2.
5
Patrón cardioide………………………………………………………...
3.
6
Patrón hipercardioide…………………………………………………..
4.
Aparato Fonatorio Humano………………………………………........ 10
5.
Corte esquemático de la laringe según un plano horizontal………. 11
6.
Modelado acústico del tracto vocal………………………………….. 28
7.
Modelo de producción de voz………………………………………… 29
8.
Modelo de producción de voz basado en LPC……………………... 40
9.
10. Modelo de la técnica Homomórfica………………………………...... 42
11. Modelo Coeficientes Cepstrales……………………………………… 43
12. Diagrama esquemático del Sistema de Reconocimiento de Voz… 47
Interfaz gráfica……………………………………………………......... 49
13.
14.
Entorno gráfico modo de grabación…………………………………. 50
15.
Entorno gráfico modo de reconocimiento…………………………… 51
TABLAS
Resumen de la clasificación acústica de los sonidos……………… 13
Formantes vocálicos………………………………………………....... 14
Valores de Parámetros para el reconocimiento de voz…………… 37
I.
II.
III.
III
IV
RESUMEN
El Sistema de Reconocimiento de Voz permite que el usuario grabe una
palabra por medio de un micrófono y ésta sea reconocida en la base de datos
existente en ese momento. El sistema en sí posee un entorno gráfico en la
computadora, que proporciona las selecciones de grabación, donde la señal de
voz es ingresada a la computadora y es procesada por los algoritmos del
programa que modifican la señal, obteniendo los parámetros significativos de la
señal de voz, para luego ser almacenados en la computadora. La selección de
reconocimiento permite que la palabra sea comparada con la base de datos
almacenada en la computadora, dicha base de datos ya fue procesada
digitalmente por el programa. Esta selección reconoce la palabra.
El entorno gráfico proporciona, por otra parte, un análisis gráfico de las
palabras grabadas y reconocidas. Como el Sistema de Reconocimiento de Voz
es un sistema de procesamiento digital de señales de voz, el análisis gráfico en
el reconocimiento es un análisis del espectro de frecuencias de la señal de voz.
El presente trabajo es una recopilación de los métodos de procesamiento digital
y una explicación de los algoritmos utilizados en el programa del Sistema de
Reconocimiento de Voz. Son explicados varios métodos de procesamiento
digital de voz y los recursos necesarios para la elaboración del sistema.
Además, se incluye la explicación de las características o parámetros
relevantes en el procesamiento digital de voz, y el porque de la selección de los
procedimientos utilizados en los algoritmos que constituyen el programa.
Terminando con un esquema gráfico general del programa, la evaluación del
mismo y una presentación del funcionamiento del entorno gráfico del programa.
V
VI
OBJETIVOS
General
Brindar un sistema que proporcione el reconocimiento de señales de voz,
por medio de la interacción entre el usuario y la computadora.
Específicos
1. Explorar algoritmos de procesamiento digital de voz, que
permitan un tratamiento sencillo de información relevante de
las señales de voz.
2. Lograr la interacción automática humano/computadora por
medio de un sistema simple de utilizar.
VII
VIII
INTRODUCCIÓN
El habla es una de las partes más importantes de la expresión humana, es
algo que nos diferencia del resto de seres vivos en planeta, ya que sin el habla
el pensamiento mismo del hombre no sería posible. No se trata simplemente de
un sistema para transmitir información, aunque sea claro una de sus funciones.
Pero es por medio de los sonidos que se presenta la esencia espiritual del
hombre.
Dada la importancia del habla, el presente trabajo de graduación pretende
crear una interacción entre una de las expresiones esenciales del hombre con
la computadora, creando así un Sistema de Reconocimiento de Voz.
El procesamiento digital de señales de voz tiene una gran variedad de
aplicaciones, existe una base para el tratamiento digital de señales, que puede
ser implementada para lograr obtener lo que nos interese según la aplicación.
El Sistema de Reconocimiento de Voz es una de las aplicaciones del
procesamiento digital de señales de voz. El sistema consiste en obtener una
señal de voz que permita reconocer qué palabra se esta hablando. Consta de
una interfaz gráfica que permite la interacción del usuario por medio de un
micrófono con la computadora, la que procesa automáticamente los datos
adquiridos. Basado en los resultados de este sistema, se puede ver como se
plantea la base del procesamiento digital de señales de voz y queda a la libre
imaginación como puede ser utilizado para otras aplicaciones, además del de
reconocimiento de voz.
IX
X
1. SISTEMA DE RECONOCIMIENTO DE VOZ
1.1. Componentes del sistema
1.1.1 Micrófono
Es un transductor electroacústico, que tiene como función transformar o
traducir la presión acústica ejercida sobre su capsula por las ondas sonoras en
energía eléctrica. La calidad de cada micrófono viene
Comentarios de: Sistema de reconocimiento de voz en Matlab (0)
No hay comentarios