Prototyp Architektur für audio-visuelle Interaktion

Die Architektur gliedert sich in 3 Komponenten (vgl. Bild):

  • Das State Machine Frontend steuert die grafische Benutzeroberfläche mit Hilfe von High-Fidelity-Grafiken.
  • Das Middleware Backend verbindet das State Machine Frontend mit dem LogicalBackend
  • Das Logical Backend basiert auf Rhasspy 2.5, einem frei verfügbaren Framework für offline Sprachassistenz-Anwendungen.

 

Datensatz für Natural Language Understanding

Trainingsdaten:

  • 1964 Äußerungen
  • 10724 running words

Testdaten

  • 839 Äußerungen
  • 4507 running words

Beispiele

1) Intent: FindRecipes, (slot_name, slot_value) = (ingredient, pasta)

What about pasta recipes today

2) Intent: RequestRecipeVariant, (slot_name, slot_value) = (recipe_type, vegetarian)

Show me the vegetarian version of the recipe

3) Intent: SetPortions, (slot_name, slot_value) = (amount, five)

Select five portions please