PDF de programación - Técnicas de inteligencia artificial - Aprendizaje: Perceptrón multi-capa

Volver

<<>>

Técnicas de inteligencia artificial - Aprendizaje: Perceptrón multi-capa

Publicado el 11 de Julio del 2017

1.123 visualizaciones desde el 11 de Julio del 2017

552,5 KB

19 paginas

Creado hace 14a (10/05/2011)

Técnicas de inteligencia artificial

Aprendizaje:
Perceptrón multi-capa

Índice

Regla delta

 Modelo computacional
 Neuronas e hiperplanos
 Entrenamiento como ajuste supervisado
 No-separabilidad lineal

‘Backpropagation’

 Perceptrones multi-capa
 Funciones de activación derivables
 ‘Backpropagation’: explicación heurística
 ‘Backpropagation’: derivación matemática
 Aplicaciones y consideraciones prácticas

Indice

 Regla delta

 Modelo computacional
 Neuronas e hiperplanos
 Entrenamiento como ajuste supervisado
 No-separabilidad lineal

 ‘Backpropagation’

 Perceptrones multi-capa
 Funciones de activación derivables
 ‘Backpropagation’: explicación heurística
 ‘Backpropagation’: derivación matemática
 Aplicaciones y consideraciones prácticas

Modelo computacional

 Neurona biológica:
1. Entradas: dendritas.
2.

Integración: en el soma. Dispositivos “todo-
o-nada” (solo se dispara salida si las
entradas superan un nivel (umbral)

3. Salidas: el axón transporta la señal de

salida a otras neuronas. Conecta con sus
dendritas a través de sinapsis.

 Neurona computacional:
1. Entradas: Números reales.
2.

Integración: suma ponderada (net) por los
pesos sinápticos seguida de una función de
activación f(net)

3. Salida: resultado y=f(net)

Neuronas e hiperplanos



 Función de activación
“umbral”:
Interpretación geométrica:
Considerando que el umbral
es un peso más con entrada
fija de -1, la neurona define
un hiperplano de forma que
los ejemplos etiquetados con
y=1 caen al lado positivo y los
etiquetados con y=0 al lado
negativo:

Entrenamiento

 Ajuste de hiperplanos: Dados dos

conjuntos de ejemplos
correspondientes a dos clases,
buscaremos su separación por un
hiperplano

 Regla delta:

 Permite ajustar iterativamente el

hiperplano.

 Se asume que el incremento de los

pesos es proporcional a la disparidad
entre la salida observada y la salida
deseada.

 Dicha proporcionalidad viene
modulada por la constante de
aprendizaje:

No-separabilidad lineal

 Única neurona:

 Existen situaciones en donde un único
hiperplano no puede separar los datos.

 P.e. cuando la frontera de decisión es

curva.

 Problemas de paridad:

 Suponiendo entradas binarias

(secuencias de 0s y 1s), la neurona
debería etiquetar con 1 aquellas
secuencias con un número impar de 1s y
con 0 aquellas con un número par.

 Ej: Problema de la XOR.
 Para resolver estos problemas es preciso

incorporar una capa adicional de
neuronas.

Indice

 Regla delta

 Modelo computacional
 Neuronas e hiperplanos
 Entrenamiento como ajuste supervisado
 No-separabilidad lineal

 ‘Backpropagation’

 Perceptrones multi-capa
 Funciones de activación derivables
 ‘Backpropagation’: explicación heurística
 ‘Backpropagation’: derivación matemática
 Aplicaciones y consideraciones prácticas

Perceptrones multi-capa





Estructura y capacidad:
 La capa adicional se denomina

capa oculta.

 Se demuestra que un

perceptrón con dos capas
ocultas puede aproximar
cualquier función.

Interpretación geométrica:
 Problemas con regiones de

decisión más complejas exigen
distintas estrategias de
separación.

 Dichas estrategias las

proporcionan las capas ocultas.

 En la época en que se

desarrolló esta teoría no existía
un algoritmo práctico que
permitiese encontrar los pesos
asociados a todas y cada una de
las neuronas.

Funciones de activación derivables

 Para aplicar el algoritmo de entrenamiento multicapa es

necesario que la función de activación sea derivable

 Buscamos funciones derivables con forma similar al escalón

del perceptrón de una sola capa

Sigmoide

Derivada

Backpropagation: explicación heurística

 Supongamos que al clasificar un ejemplo una neurona de la última capa

tiene una salida yk, siendo la deseada dk

 Dicha neurona es responsable de un error

 La regla de actualización de los pesos de la última capa será similar a la

regla delta ya vista

Error (delta) en capas intermedias

 Una neurona de una capa
intermedia contribuye en
los δ de las de la capa
siguiente

 Por tanto, para calcular su

δ necesitamos estos

Backpropagation: algoritmo

 Se aplica para cada
ejemplo del conj. de
entrenamiento. Se itera
hasta que el error baje de
un umbral

 Fases:

 Hacia delante: cálculo de la

salida de la red (los yk).
Cálculo de los δ en la última
capa

 Hacia atrás. Cálculo de los δ
de la capa en función de los
de la siguiente

 Finalmente, actualización de

los pesos de todas las capas

Backpropagation: derivación matemática

 El algoritmo es un descenso por

gradiente (de ahí que
necesitemos una función de
activación derivable)

 Minimización del error que se

produce al clasificar un ejemplo
(encontrar los wi óptimos). Dicho
error se puede formular como

 Habrá que modificar los wi en la

dirección opuesta al gradiente,
esto es

Derivación backpropagation: última capa

 Para un peso wjk de la última capa (aplicando la regla de la
cadena, ya que E depende de netk que a su vez depende de
wjk)

 Escribiendo como δ, tenemos una fórmula equiv. a la

regla delta del perceptrón de 1 capa:

 Para calcular δk, aplicamos de nuevo la regla de la cadena

(netk

y→ k

E)→

Derivación backpropagation: capas anteriores

 Para un peso wij de una capa anterior, el razonamiento inicial

es el mismo que antes y nos lleva a

 Aplicando la regla de la cadena para calcular δ

Convergencia de backpropagation

 Ajuste de la constante η

 Valores muy pequeños: convergencia lenta
 Valores grandes: riesgo de overshooting (saltarnos el

mínimo)

 Momento: en el cambio actual influye una fracción del
anterior. Mejora la convergencia evitando oscilaciones

Ejemplo de convergencia

 Problema del XOR

i

o
d
e
m

o
c
i
t
á
r
d
a
u
c

r
o
r
r
E

a
i
c
n
e
g
r
e
v
n
o
c

e
d

.
b
o
r
P

iteraciones

η

Bibliografía

 Escolano et al. Inteligencia Artificial. Thomson-

Paraninfo 2003. Capítulo 4.

 Mitchell, Machine Learning. McGraw Hill,

Computer Science Series. 1997

 Reed, Marks, Neural Smithing. MIT Press, CA

Mass 1999