Publicado el 11 de Julio del 2017
1.099 visualizaciones desde el 11 de Julio del 2017
552,5 KB
19 paginas
Creado hace 13a (10/05/2011)
Técnicas de inteligencia artificial
Aprendizaje:
Perceptrón multi-capa
Índice
Regla delta
Modelo computacional
Neuronas e hiperplanos
Entrenamiento como ajuste supervisado
No-separabilidad lineal
‘Backpropagation’
Perceptrones multi-capa
Funciones de activación derivables
‘Backpropagation’: explicación heurística
‘Backpropagation’: derivación matemática
Aplicaciones y consideraciones prácticas
Indice
Regla delta
Modelo computacional
Neuronas e hiperplanos
Entrenamiento como ajuste supervisado
No-separabilidad lineal
‘Backpropagation’
Perceptrones multi-capa
Funciones de activación derivables
‘Backpropagation’: explicación heurística
‘Backpropagation’: derivación matemática
Aplicaciones y consideraciones prácticas
Modelo computacional
Neurona biológica:
1. Entradas: dendritas.
2.
Integración: en el soma. Dispositivos “todo-
o-nada” (solo se dispara salida si las
entradas superan un nivel (umbral)
3. Salidas: el axón transporta la señal de
salida a otras neuronas. Conecta con sus
dendritas a través de sinapsis.
Neurona computacional:
1. Entradas: Números reales.
2.
Integración: suma ponderada (net) por los
pesos sinápticos seguida de una función de
activación f(net)
3. Salida: resultado y=f(net)
Neuronas e hiperplanos
Función de activación
“umbral”:
Interpretación geométrica:
Considerando que el umbral
es un peso más con entrada
fija de -1, la neurona define
un hiperplano de forma que
los ejemplos etiquetados con
y=1 caen al lado positivo y los
etiquetados con y=0 al lado
negativo:
Entrenamiento
Ajuste de hiperplanos: Dados dos
conjuntos de ejemplos
correspondientes a dos clases,
buscaremos su separación por un
hiperplano
Regla delta:
Permite ajustar iterativamente el
hiperplano.
Se asume que el incremento de los
pesos es proporcional a la disparidad
entre la salida observada y la salida
deseada.
Dicha proporcionalidad viene
modulada por la constante de
aprendizaje:
No-separabilidad lineal
Única neurona:
Existen situaciones en donde un único
hiperplano no puede separar los datos.
P.e. cuando la frontera de decisión es
curva.
Problemas de paridad:
Suponiendo entradas binarias
(secuencias de 0s y 1s), la neurona
debería etiquetar con 1 aquellas
secuencias con un número impar de 1s y
con 0 aquellas con un número par.
Ej: Problema de la XOR.
Para resolver estos problemas es preciso
incorporar una capa adicional de
neuronas.
Indice
Regla delta
Modelo computacional
Neuronas e hiperplanos
Entrenamiento como ajuste supervisado
No-separabilidad lineal
‘Backpropagation’
Perceptrones multi-capa
Funciones de activación derivables
‘Backpropagation’: explicación heurística
‘Backpropagation’: derivación matemática
Aplicaciones y consideraciones prácticas
Perceptrones multi-capa
Estructura y capacidad:
La capa adicional se denomina
capa oculta.
Se demuestra que un
perceptrón con dos capas
ocultas puede aproximar
cualquier función.
Interpretación geométrica:
Problemas con regiones de
decisión más complejas exigen
distintas estrategias de
separación.
Dichas estrategias las
proporcionan las capas ocultas.
En la época en que se
desarrolló esta teoría no existía
un algoritmo práctico que
permitiese encontrar los pesos
asociados a todas y cada una de
las neuronas.
Funciones de activación derivables
Para aplicar el algoritmo de entrenamiento multicapa es
necesario que la función de activación sea derivable
Buscamos funciones derivables con forma similar al escalón
del perceptrón de una sola capa
Sigmoide
Derivada
Backpropagation: explicación heurística
Supongamos que al clasificar un ejemplo una neurona de la última capa
tiene una salida yk, siendo la deseada dk
Dicha neurona es responsable de un error
La regla de actualización de los pesos de la última capa será similar a la
regla delta ya vista
Error (delta) en capas intermedias
Una neurona de una capa
intermedia contribuye en
los δ de las de la capa
siguiente
Por tanto, para calcular su
δ necesitamos estos
Backpropagation: algoritmo
Se aplica para cada
ejemplo del conj. de
entrenamiento. Se itera
hasta que el error baje de
un umbral
Fases:
Hacia delante: cálculo de la
salida de la red (los yk).
Cálculo de los δ en la última
capa
Hacia atrás. Cálculo de los δ
de la capa en función de los
de la siguiente
Finalmente, actualización de
los pesos de todas las capas
Backpropagation: derivación matemática
El algoritmo es un descenso por
gradiente (de ahí que
necesitemos una función de
activación derivable)
Minimización del error que se
produce al clasificar un ejemplo
(encontrar los wi óptimos). Dicho
error se puede formular como
Habrá que modificar los wi en la
dirección opuesta al gradiente,
esto es
Derivación backpropagation: última capa
Para un peso wjk de la última capa (aplicando la regla de la
cadena, ya que E depende de netk que a su vez depende de
wjk)
Escribiendo como δ, tenemos una fórmula equiv. a la
regla delta del perceptrón de 1 capa:
Para calcular δk, aplicamos de nuevo la regla de la cadena
(netk
y→ k
E)→
Derivación backpropagation: capas anteriores
Para un peso wij de una capa anterior, el razonamiento inicial
es el mismo que antes y nos lleva a
Aplicando la regla de la cadena para calcular δ
Convergencia de backpropagation
Ajuste de la constante η
Valores muy pequeños: convergencia lenta
Valores grandes: riesgo de overshooting (saltarnos el
mínimo)
Momento: en el cambio actual influye una fracción del
anterior. Mejora la convergencia evitando oscilaciones
Ejemplo de convergencia
Problema del XOR
i
o
d
e
m
o
c
i
t
á
r
d
a
u
c
r
o
r
r
E
a
i
c
n
e
g
r
e
v
n
o
c
e
d
.
b
o
r
P
iteraciones
η
Bibliografía
Escolano et al. Inteligencia Artificial. Thomson-
Paraninfo 2003. Capítulo 4.
Mitchell, Machine Learning. McGraw Hill,
Computer Science Series. 1997
Reed, Marks, Neural Smithing. MIT Press, CA
Mass 1999
Comentarios de: Técnicas de inteligencia artificial - Aprendizaje: Perceptrón multi-capa (0)
No hay comentarios