PDF de programación - Estudios en Ensambles de Redes Neuronales

Volver

<<>>

Estudios en Ensambles de Redes Neuronales

Publicado el 10 de Abril del 2018

1.047 visualizaciones desde el 10 de Abril del 2018

682,0 KB

104 paginas

Creado hace 17a (20/11/2007)

Centro de Investigación y de Estudios Avanzados

del Instituto Politécnico Nacional

Unidad Zacatenco

Departamento de Computación

Estudios en Ensambles de Redes Neuronales.

Tesis que presenta

Eduardo Filemón Vázquez Santacruz

para obtener el Grado de

Maestro en Ciencias

en la Especialidad de

Ingeniería Eléctrica
opción Computación

Director de la Tesis

Dr. Debrup Chakraborty

México, D.F.

26 de Noviembre de 2007

ii

Agradecimientos

Al Consejo Nacional de Ciencia y Tecnología por los recursos otorgados que faci-
litaron los estudios de maestría. Al personal del Departamento de Computación del
Centro de Investigación y de Estudios Avanzados del IPN por los conocimientos y
hospitalidad ofrecidos. Al personal de la Biblioteca de Ingeniería Eléctrica por facili-
tar el material necesario durante los estudios de maestría.

Al Dr. Debrup Chakraborty, por su singular motivación, asesoría y enseñanza du-

rante el trabajo de tesis realizado.

A los Drs. Francisco Rodríguez Henríquez y Carlos A. Coello Coello, por sus va-

liosos comentarios durante la revisión del documento de tesis.

En especial a mis padres, quienes han fomentado parte de la integridad que me

ha forjado como un ser humano comprometido con su alrededor.

Gracias a la vida que implica la posibilidad de dudar, de pensar y de imaginar.

iii

Resumen

Presupóngase un conjunto de datos L = {(xi, yi) : i = 1, . . . , n; xi ∈ ℜp, yi ∈ ℜs},
generado a partir de una distribución de probabilidad P desconocida. Existen va-
rios métodos disponibles en la literatura para estimar la relación entrada-salida que
está presente en los datos del conjunto L. En la mayoría de los métodos una función
de predicción φ se construye usando el conjunto L y optimizando cierto criterio. La
propiedad más importante que la función φ debe tener es la capacidad de predecir
las salidas de los datos (generados con la misma distribución P ) que no están pre-
sentes en el conjunto de entrenamiento L. Esta propiedad es llamada habilidad de
generalización de la función de predicción. El desarrollo de sistemas que puedan pre-
decir con buenas propiedades de generalización es un área de investigación activa y
existen muchas propuestas para hacerlo. Una de las técnicas para realizar esta tarea
consiste en construir múltiples clasiﬁcadores usando L y combinar las salidas de éstos
para obtener la predicción ﬁnal. Este tipo de métodos son denominados “métodos de
ensamble”.

Una de la estrategias comunes para construir un clasiﬁcador a partir de un con-
junto de datos dado L, consiste en entrenar una red neuronal de “pro-alimentación”
(por ejemplo, un perceptrón multicapa (MLP)) usando L. Es posible entrenar varias
redes neuronales a partir de L y posteriormente crear un ensamble con ellas. En esta
tesis estudiamos algunos métodos para crear ensambles de redes neuronales.

Presentamos tres nuevos métodos para crear ensambles y también discutimos al-
gunas variantes de estas metodologías. Primero discutimos una variante de la MLP
llamada “red de cuello de botella”, ésta ha sido ampliamente usada para la reducción
de dimensión de datos. Presentamos una variante de la MLP de cuello de botella ori-
ginal, y proponemos una nueva estrategia para crear ensambles de redes neuronales
usando proyecciones a partir de “redes de cuello de botella”. También discutimos una
metodología para crear clones a partir de una red individual entrenada. La generación
de clones se realiza mediante la adición de ruido controlado a los parámetros de la
red principal. Demostramos que un ensamble de clones puede dar mejor desempeño
que la red principal. Finalmente mostramos un método para entrenar redes usando
datos generados a partir de la estimación de densidad del conjunto de datos original
L. Hemos validado todos nuestros métodos con experimentos usando conjuntos de
datos de clasiﬁcación estándares y nuestros métodos dan resultados aleantadores.

v

Abstract

Let us assume a data set L = {(xi, yi) : i = 1, . . . , n; xi ∈ ℜp, yi ∈ ℜs}, generated
from an unknown but ﬁxed probability distribution P . There are numerous methods
available in the literature to estimate the input-output relationship present in the data
points in L. In most methods, a predictor function φ is constructed using the set L and
optimizing certain criteria. The most important property that the predictor φ should
have is that the predictor should be able to predict the outputs for points which are
from the same distribution P but are not present in the training set L. This property
is called the generalization ability of the predictor. Constructing predictors with good
generalization properties is an active area of research and there exist many proposals
to do it. One of the techniques to do it is to construct multiple predictors using L and
aggregating the outputs of these predictors for obtaining the ﬁnal prediction. This
class of methods are called ensemble methods.

One of the popular ways to construct a predictor from a given data L is to train
a feed forward neural network (like a multilayered perceptron (MLP)) using L. It
is possible to train multiple neural networks from L and thus create an ensemble of
neural networks. In this thesis we study certain methods to create neural network
ensembles.

We present three new broad methods to create ensembles and we also discuss some
variants of these broad methodologies. First, we discuss a MLP variant called the
bottleneck network, which has been widely used for data dimensionality reduction.
We present a variant of the original bottleneck MLP, and propose a new way to
create neural network ensembles using bottleneck projections. Next, we discuss a
methodology to create clones from a single trained network by adding controlled noise
to the parameters of the parent network. We show that an ensemble of the clones can
give better performance than the parent network. Finally, we show a method to train
networks from data points generated from a kernel density estimate of the original
data set L. We validate all our methods with experiments using standard benchmark
classiﬁcation data sets, and we show that our methods provide encouraging results.

vii

viii

ABSTRACT

Índice general

Resumen

Abstract

Índice de tablas

Índice de ﬁguras

1. Introducción

1.1. Panorama actual
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2. Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . .
1.3. Descripción de la tesis

2. Ensambles de redes neuronales

2.1. Redes neuronales artiﬁciales . . . . . . . . . . . . . . . . . . . . . . .
2.2. El perceptrón multicapa (MLP) . . . . . . . . . . . . . . . . . . . . .
2.2.1. El algoritmo de “retro-propagación” . . . . . . . . . . . . . . .
2.3. Cálculo del error de predicción . . . . . . . . . . . . . . . . . . . . . .
2.4. Ensambles de clasiﬁcadores . . . . . . . . . . . . . . . . . . . . . . . .

3. Red neuronal de cuello de botella modiﬁcada

3.1. La red neuronal de cuello de botella . . . . . . . . . . . . . . . . . . .
3.1.1. Red de cuello de botella modiﬁcada . . . . . . . . . . . . . . .
3.2. ¿Cómo usar los datos reducidos? . . . . . . . . . . . . . . . . . . . . .
3.2.1. Como una transformación antes del entrenamiento de un MLP
usado para la tarea de predicción . . . . . . . . . . . . . . . .
3.2.2. Para construir ensambles de redes neuronales
. . . . . . . . .
3.2.3. Métodos que usan estimación de densidad implícita o explícita
3.2.4. En Bagging con múltiples proyecciones del mismo conjunto de
datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.5. En Bagging con múltiples proyecciones generadas con clonación
de redes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3. Resultados experimentales . . . . . . . . . . . . . . . . . . . . . . . .
3.4. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

ix

V

VII

XII

XIII

1
1
6
7

9
9
12
14
16
18

23
25
25
27

27
28
28

29

29
30
35

x

ÍNDICE GENERAL

4. Ensambles de redes neuronales usando adición de ruido

4.1. Nuestra propuesta
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2. Esquema mediante adición simple de ruido . . . . . . . . . . . . . . .
4.2.1. La Estrategia . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.2. Red neuronal base
. . . . . . . . . . . . . . . . . . . . . . . .
4.2.3. Operador de clonación . . . . . . . . . . . . . . . . . . . . . .
4.2.4. Operador de selección . . . . . . . . . . . . . . . . . . . . . .
4.3. Esquema mediante adición de ruido usando análisis de sensibilidad . .
4.3.1. Análisis de Sensibilidad . . . . . . . . . . . . . . . . . . . . . .
4.3.2. Poda de redes neuronales . . . . . . . . . . . . . . . . . . . . .
4.4. Esquema usando clonación de dos redes base . . . . . . . . . . . . . .
4.5. Resultados experimentales . . . . . . . . . . . . . . . . . . . . . . . .
4.5.1. Esquema mediante adición simple de ruido . . . . . . . . . . .
4.5.2. Esquema mediante adición de ruido usando análisis de sensibi-
lidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.5.3. Buscando el valor de σ para problemas de clasiﬁcación . . . .
4.5.4. Esquema usando clonación de dos redes base . . . . . . . . . .
4.5.5. La perturbación mejora el desempeño de la red base . . . . . .
4.6. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5. Ensambles de redes neuronales usando estimaciones de densidad

5.1. Esquema propuesto . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.1.1. Estimaciones de densidad . . . . . . . . . . . . . . . . . . . .
5.2. Resultados experimentales . . . . . . . . . . . . . . . . . . . . . . . .
5.3. Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6. Conclusiones

A. Resultados obtenidos

37
38
39
39
40
40
42
43
43