en este caso no se trata de Matlab, se trata de entender primero que nada
¿Qué es una señal de audio digital?, ahí notarás que no es más que un vector de números muestreados a cierta frecuencia, esto será en cualquier lenguaje que estés usando , si visitas la documentación oficial del lenguaje en este caso de Matlab encontrarás los ejemplos necesarios, ahora bien también debes introducirte necesariamente al mundo matemático, específicamente entendiendo la relación de los números imaginarios con el seno y el coseno y, euler , la llamada Fórmula de Euler, con esto deberías pasar a entender cómo funcionan las transformadas matemáticas, como por ejemplo la más popular para el caso de audios, la transformada de Fourier, también requieres técnicas estadísticas como la extracción de características principales, esto te ayudara a extraer características importantes de los audios, faltaría la comparación aquí puedes aplicar machine learning , redes neuronales artificiales ...
En resumen :
Extraer las características de esas palabras especiales y guardarlas
Extraer las características del Nuevo audio
Comparar mediante Redes Neuronales Artificiales, Knn, SVM, etc las características extraídas con las características guardadas
Aquí en este Link oficial hacemos posible los procesamientos
https://la.mathworks.com/help/audio/examples/Speech-Command-Recognition-Using-Deep-Learning.html
y existen muchos recursos para cada una de las etapas que te mencioné pero debes comprender los pasos, por lo menos, de forma general
ese link que te envié es muy útil y ahí muchos otros en esa página que te servirán pero debes tomarte el tiempo de entenderlos para que puedas adaptarlo a tus necesidades