Ambos tienen razón , la red neuronal para aplicar entrenamiento se aplica por ejemplo el gradiente descendiente para ir minimizando el error , que no es más que aplicar las derivadas parciales del error con respecto a cada peso, el problema aquí radica en que por ejemplo si tienes 100 neuronas en 5 capas ocultas (500 neuronas) cada una de las 100 neuronas de la capa uno entrar a cada una de las 100 neuronas en la capa 2 y así sucesivamente lo que implicaría una ecuación demasiado pero demasiado extensa que seguro provocará un desbordamiento del programa si deseas obtenerla y además no es la intención con la que se crearon , entonces lo que hacen todos los programas de redes neuronales es guardar solo los pesos de las neuronas y sus respectivas funciones de transferencia para que cada vez que tú le des una entrada , el programa mediante múltiples for haga las combinaciones de pesos con entradas y funciones de transferencia y vaya trasmitiendo la señal hasta llegar a la capa final, pero como puedes ver aquí una vez ejecuta una capa se olvida de esta . Al aplicar el entrenamiento por propagación hacía atrás hace todo lo contrario , va derivando parcialmente en cada neurona pero se va olvidando de las capas iniciales y así puedes llegar hasta el último peso y ajustarlo , pero en ningún momento obtiene la función completa y la derivada parcialmente con respecto a cada función , espero que eso te quede claro …
para obtener los pesos getwb(net)
saludos
https://www.facebook.com/royethmatlab/