Dynamische Zeitverzündung für Spracherkennung

Was ist DTW in der Spracherkennung?
Warum ist dynamische Zeitverzerrung nützlich?
Wie funktioniert der DTW -Algorithmus??

Was ist DTW in der Spracherkennung?

DTW ist eine Methode zur Messung der Ähnlichkeit eines Musters mit unterschiedlichen Zeitzonen. Je kleiner die erzeugte Entfernung ist, desto ähnlicher zwischen den beiden Schallmustern ähnlicher. Beide Klangmuster sind ähnlich, daher sollen die beiden Stimmen gleich sind.

Warum ist dynamische Zeitverzerrung nützlich?

Dynamisches Zeitverzerrung wird verwendet, um die Ähnlichkeit zu vergleichen oder den Abstand zwischen zwei Arrays oder Zeitreihen mit unterschiedlicher Länge zu berechnen. Wie geht das? Eine offensichtliche Möglichkeit besteht darin, A und B in 1: 1-Mode in Einklang zu bringen und die Gesamtentfernung jeder Komponente zusammenzufassen.

Wie funktioniert der DTW -Algorithmus??

Dynamic Time Warping (DTW) ist ein Zeitreihen -Alignment -Algorithmus, der ursprünglich zur Spracherkennung entwickelt wurde⁽¹⁾⁾. Es zielt darauf ab, zwei Sequenzen von Merkmalsvektoren auszurichten, indem die Zeitachse iterativ bis zu einem optimalen Übereinstimmung (gemäß den geeigneten Metriken) zwischen den beiden Sequenzen festgestellt wird.