По-видимому, в IBM Watson Speech-to-Text API существует постоянная проблема, заключающаяся в том, что стенограмма и альтернативы несовместимы.Например, выдержка из нарушающей расшифровки расшифровывается как:
'fall being just like'
, а соответствующие альтернативы, агрегированные по отметке времени, равны
[following, vaulting, fall, faulting, folding]
[like]
, что указывает на отсутствие альтернатив, соответствующих«ни« просто ».Самый вопиющий пример, который я видел, это случай, когда расшифровка отлично, но альтернативы пусты.Приложение, над которым я работаю, работает с предположением, что альтернативы, по большей части, являются расширенным набором стенограммы (вплоть до учета интеллектуального форматирования), так что это серьезная проблема для меня.
Еще одна выдержка:
'are a team you know 80 - around back great'
, но альтернативы имеют [наши, все] между 6,19 и 6,39, а затем [обратно] между 8,18 и 8,54, что дает ~ 2 секундынеучтенная пауза, в которой расшифровка стенограммы была в состоянии обнаружить слова, но альтернативы этого не сделали.
Иногда кажется, что может произойти и обратное, когда в альтернативах есть слова, которые не могут быть сопоставлены с теми, которые встречаются в расшифровке., что усугубляет проблему, так как я даже тогда не могу принудительно примирить их, например, вставляя слова в альтернативы с метками времени заполнителя.
Короче говоря: почему бывает так, что иногда стенограмма и альтернативы не могут быть согласованы даже после того, как эффекты интеллектуального форматирования игнорируются?В частности, расшифровка может содержать слова, которые не встречаются в альтернативах, и наоборот.