debes hacer dos listas, con un poco de paciencia. una con el numero de cada palabra, utilizar la funcion "word" en texto la otra una lista con los milisegundos donde comience cada palabra.
es verdaderamente un trabajo laborioso
despues debes hacer un handler para que cuando el sonido llegue a cada milisegundo muestre o resalte dicha palabra.