Muchas veces este coeficiente no nos dice nada por sí solo , porque debería ajustarse no solo a minizar el error sino también en preguntarnos cuántas muestras trata de explicar, y cuántos parámetros necesitó para explicar los datos , es decir a medida que incluyes más neuronas ese coeficiente normalmente aumenta pero va a llegar el momento en que no es significativo este aumento entonces lo que vas a tener es una memorización , lo mismo sucede si le aumentas el número de datos ...
si no comprendes bien esta parte te recomiendo que leas acerca del coeficiente de determinación ajustado en modelos sencillos de estadística y luego puedes aplicarlo a este caso
hay una heurística que dice que el número de neuronas en la capa oculta (cuando hay una sola) debe ser la mitad del número de entradas y salidas , y bueno estás por ahí así que Sí puede ser un buen entrenamiento