Несоответствие между расшифровкой и альтернативами в IBM Watson Speech To Text - PullRequest
0 голосов
/ 14 февраля 2019

По-видимому, в IBM Watson Speech-to-Text API существует постоянная проблема, заключающаяся в том, что стенограмма и альтернативы несовместимы.Например, выдержка из нарушающей расшифровки расшифровывается как:

'fall being just like'

, а соответствующие альтернативы, агрегированные по отметке времени, равны

[following, vaulting, fall, faulting, folding]
[like]

, что указывает на отсутствие альтернатив, соответствующих«ни« просто ».Самый вопиющий пример, который я видел, это случай, когда расшифровка отлично, но альтернативы пусты.Приложение, над которым я работаю, работает с предположением, что альтернативы, по большей части, являются расширенным набором стенограммы (вплоть до учета интеллектуального форматирования), так что это серьезная проблема для меня.

Еще одна выдержка:

'are a team you know 80 - around back great' 

, но альтернативы имеют [наши, все] между 6,19 и 6,39, а затем [обратно] между 8,18 и 8,54, что дает ~ 2 секундынеучтенная пауза, в которой расшифровка стенограммы была в состоянии обнаружить слова, но альтернативы этого не сделали.

Иногда кажется, что может произойти и обратное, когда в альтернативах есть слова, которые не могут быть сопоставлены с теми, которые встречаются в расшифровке., что усугубляет проблему, так как я даже тогда не могу принудительно примирить их, например, вставляя слова в альтернативы с метками времени заполнителя.

Короче говоря: почему бывает так, что иногда стенограмма и альтернативы не могут быть согласованы даже после того, как эффекты интеллектуального форматирования игнорируются?В частности, расшифровка может содержать слова, которые не встречаются в альтернативах, и наоборот.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...