Spracheingabe
Wörterbuch
-
Spracheingabef
Beispiele im Kontext
-
Benutzerschnittstelle für Spracheingabe
Voice User Interface
-
= Spracheingabe
= voice input
-
Spracheingabe
Speech input
-
Die Differenz der Signale stellt den eigentlichen Ausgang, eine Schätzung der Spracheingabe, dar.
The difference between the signals represents the actual output, an estimation of the voice input.
-
So kann bspw. ein Dialog mit einem Benutzer mit einer Begrüßung und einer anschließenden Aufforderung zur Tätigung einer bestimmten Spracheingabe beginnen.
[0022] The application-specific data stored in the database define the dialog structures which can be preset for each application. Thus for example a dialog with a user can begin with a greeting and a subsequent request for activation of a particular speech input.
-
Ein Spracherkennungssystem, das folgendes umfaßt: Mittel (4) zur Durchführung einer Frequenzanalyse bei einer Spracheingabe in einer Abfolge von zeitlichen Perioden zur Erfassung von Merkmalvektoren, Mittel (8) zur Erzeugung einer entsprechenden Label-Folge unter Verwendung eines Vektorquantisierungscodebuchs (9), Mittel (11) zum Abgleich mehrerer Wort-Grundformen, ausgedrückt als eine Folge von Markov-Modellen, die jeweils Labels entsprechen, mit der Label-Folge, Mittel (14) zur Erkennung der Spracheingabe anhand des Ergebnisses des Abgleichvorgangs und Mittel zur Durchführung einer Anpassungsoperation bei dem System, mit der dessen Fähigkeit zur Spracherkennung verbessert wird, dadurch gekennzeichnet, daß das Mittel zur Durchführung der Anpassungsoperation folgendes umfaßt: Mittel (4) zur Aufteilung jedes einzelnen einer Mehrzahl von Spracheingabewörtern in N Segmente (wobei N eine Ganzzahl größer oder gleich 1 ist) und zur Erzeugung eines Repräsentativwertes für den Merkmalvektor der einzelnen Segmente jedes Spracheingabewortes, Mittel zur Aufteilung von Wort-Grundformen in Segmente, wobei jedes einem der Spracheingabewörter entspricht, und zur Erzeugung eines Repräsentativwertes für die einzelnen Segment-Merkmalvektoren jeder Wort-Grundform anhand eines Prototypvektors des Vektorquantisierungscodebuchs, Mittel zur Erzeugung eines Bewegungsvektors, der den Abstand zwischen einem Repräsentativwert für jedes Segment der einzelnen Spracheingabewörter und einem Repräsentativwert des entsprechenden Segments der entsprechenden Wort-Grundform angibt, Mittel zur Entwicklung des Relationsgrades zwischen den einzelnen Segmenten jedes Spracheingabewortes und den einzelnen Labels in der Label-Gruppe des Vektorquantisierungscodebuchs auf Basis von P(L k i,j)=SP(L k M?).P(M? i,j) wobei P(L k i,j) den Relationsgrad zwischen dem Segment j des Spracheingabewortes für das Wort i und dem Label L k in der Label-Gruppe des Vektorquantisierungscodebuchs bezeichnet; P(L k M?) die Ausgabewahrscheinlichkeit für das Label L k im Markov-Modell M? ist und P(M? i,j) die Wahrscheinlichkeit des Auftretens des Markov-Modells M? im Segment j des Wortes i, Mittel zur Speicherung des Relationsgrades zwischen den einzelnen Segmenten jedes Spracheingabewortes und den einzelnen Labels einer Label-Gruppe im Vektorquantisierungscodebuch, Prototyp-Anpassungsmittel zur Korrektur eines Prototypvektors für die einzelnen Labels in der Label-Gruppe des Vektorquantisierungscodebuchs durch die einzelnen Bewegungsvektoren entsprechend dem Relationsgrad zwischen dem Label und dem Bewegungsvektor und Mittel in diesem Protoyp-Anpassungsmittel zur Entwicklung der einzelnen Label-Prototypvektoren in einer Label-Gruppe des Vektorquantisierungscodebuchs auf Basis von wobei F k ein Prototypvektor vor der Korrektur des Labels L k ist, F k ' ein Prototyp-Vektor nach der Korrektur des Labels L k , S ij ein Repräsentativwert für den Merkmalvektor im Segment j der Wort-Spracheingabe für das Wort i und B ij ein Repräsentativvektor im Segment j der Wort-Grundform für das Wort i. Ein Spracherkennungssystem nach Anspruch 1, dadurch gekennzeichnet, daß der Repräsentativwert für jeden Segmentmerkmalvektor jedes einzelnen Spracheingabewortes einen Mittelwert des Merkmalvektors in dem Segment bildet.
A speech recognition system comprising means (4) for performing a frequency analysis of an input speech in a succession of time periods to obtain feature vectors, means (8) for producing a corresponding label train using a vector quantization code book (9), means (11) for matching a plurality of word baseforms, expressed by a train of Markov models each corresponding to labels, with said label train, means (14) for recognizing the input speech on the basis of the matching result, and means for performing an adaptation operation on said system to improve its ability to recognise speech, characterised in that said means for performing an adaptation operation comprises means (4) for dividing each of a plurality of input speech words into N segments (N being an integer number greater than or equal to 1) and producing a representative value of the feature vector of each segment of each input speech word, means for dividing into segments word baseforms each corresponding to one of said input speech words and for producing a representative value of each segment feature vector of each word baseform on the basis of a prototype vector of said vector quantization code book, means for producing a movement vector indicating the distance between a representative value of each segment of each input speech word and a representative value of the corresponding segment of the corresponding word baseform, means for developing the degree of relation between each segment of each input speech word and each label in the label group of the vector quantization code book based upon: P(L k i,j)=?P(L k M?)·P(M? i,j) where P(L k i,j) is the degree of relation between the segment j of the input speech word for the word i and the label L k in the label group of the vector quantization code book; P(L k M?) is the output probability of the label L k in Markov model M?; and P(M? i,j) is the producing probability of Markov model M?, in the segment j of the word i, means for storing the degree of relation between each segment of each input speech word and each label in a label group of the vector quantization code book, prototype adaptation means for correcting a prototype vector of each label in the label group of said vector quantization code book by each movement vector in accordance with the degree of relation between the label and the movement vector, and means in said prototype adaptation means for developing each label prototype vector in a label group of said vector quantization code book based upon: where F k , is a prototype vector before the correction of the label L k ; L k 'is a prototype vector after the correction of the label L k ; S ij is a representative value of the feature vector in the segment j of the word input speech for the word i; and B ij is a representative vector in the segment j of the word baseform for the word i. A speech recognition system as claimed in claim 1 characterised in that the representative value of each segment feature vector of each input speech word is an average value of the feature vector in the segment.
-
Spracheingabe
speech input
-
Spracheingabe
Voice input