При использовании Google Cloud Speech и отправке речевого контекста возвращенные транскрипции не дают ожидаемых результатов - PullRequest
0 голосов
/ 25 марта 2019

См. См .: https://issuetracker.google.com/u/1/issues/128352542

У нас возникла проблема, когда определенные слова, добавленные в контексте речи пользователя, не возвращаются и не расставляются по приоритетам.

При использовании подсказок к фразам API, как правило, будет правильно транскрибировать фразы или слова, представленные при произнесении, однако некоторые слова не будут транскрибироваться независимо от того, как вы добавляете их в подсказки к фразам.

Конфиг отправлен внутри StreamingRecognitionConfig:

{  
   "config":{  
      "encoding":"LINEAR16",
      "sampleRateHertz":8000,
      "languageCode":"en-US",
      "enableWordTimeOffsets":true,
      "enableAutomaticPunctuation":false,
      "model":"default",
      "useEnhanced":true,
      "speechContexts":[  
         {  
            "phrases":[  
               "Bill Uhma",
               "Uhma",
               "I got coffee with Bill Uhma"
            ]
         }
      ]
   }
}

Результат при попытке сказать "Я получил кофе с Биллом Ухмой":

{
   "results":{
      "alternatives":[
         {
            "confidence":0.8440007,
            "transcript":"I got coffee with Bill Uma",
            "words":[
               {
                  "confidence":0.847875,
                  "word":"I"
               },
               {
                  "confidence":0.9265712,
                  "word":"got"
               },
               {
                  "confidence":0.98762906,
                  "word":"coffee"
               },
               {
                  "confidence":0.98762906,
                  "word":"with"
               },
               {
                  "confidence":0.9239746,
                  "word":"Bill"
               },
               {
                  "confidence":0.23432566,
                  "word":"Uma"
               }
            ]
         },
         {
            "confidence":0.94561315,
            "transcript":"I got coffee with Bill Luma"
         },
         {
            "confidence":0.911253,
            "transcript":"I got coffee with Bill Guma"
         },
         {
            "confidence":0.91219664,
            "transcript":"I got coffee with Bill Houma"
         },
         {
            "confidence":0.94028026,
            "transcript":"I got coffee with Bill looma"
         },
         {
            "confidence":0.9403957,
            "transcript":"I got coffee with Bill bouma"
         },
         {
            "confidence":0.9403957,
            "transcript":"I got coffee with Bill goomah"
         },
         {
            "confidence":0.9403957,
            "transcript":"I got coffee with Bill Wilma"
         },
         {
            "confidence":0.938467,
            "transcript":"I got coffee with Bill Boomer"
         },
         {
            "confidence":0.9403957,
            "transcript":"I got coffee with Bill buma"
         },
         {
            "confidence":0.9403957,
            "transcript":"I got coffee with Bill Ooma"
         },
         {
            "confidence":0.9403957,
            "transcript":"I got coffee with Bill Gooma"
         }
      ],
      "confidence":0.8440007,
      "is_final":true,
      "transcription":"I got coffee with Bill Uma"
   }
}

Транскрипция получено : «Я получил кофе с Биллом Умой».

ожидаемая транскрипция "Я получил кофе с Биллом Ухмой".

Как видно в результате, указанные подсказки не отображаются ни в одной из 12 полученных альтернатив.

Разделение подсказок фразы и отправка только одного из них не влияет на результат.

1 Ответ

0 голосов
/ 26 апреля 2019

Это на самом деле не ошибка, а скорее следует рассматривать как запрос функции, чтобы заставить распознаватель использовать предоставленные фразы / подсказки , особенно если слово / s в фразе не существует в его словаре , Если вы заметите, уровень доверия к слову «Ума» очень низок, что, вероятно, говорит о том, что распознаватель не понимает его (не в своем словаре).

Запрос файла здесь

...