Question

У меня есть вывод JSON из службы речевого преобразования текста Уотсона, который я преобразовал в список, а затем во фрейм данных Pandas.

Я пытаюсь определить, как восстановить разговор (с указанием времени), похожий на следующее:

Динамик 0: Сказал это [00.01 - 00.12]

Динамик 1: Сказали, что [00.12 - 00.22]

Динамик 0: сказали что-то еще [00.22 - 00.56]

В моем фрейме данных есть строка для каждого слова и столбцы для слова, его начало/ время окончания и тег динамика (0 или 1).

words = [['said', 0.01, 0.06, 0],['this', 0.06, 0.12, 0],['said', 0.12, 
0.15, 1],['that', 0.15, 0.22, 1],['said', 0.22, 0.31, 0],['something', 
0.31, 0.45, 0],['else', 0.45, 0.56, 0]]

В идеале я хочу создать следующее: слова, произнесенные одним и тем же говорящим, сгруппированы вместе и разбиты, когда следующий оратор входит:

grouped_words = [[['said','this'], 0.01, 0.12, 0],[['said','that'] 0.12, 
0.22, 1],[['said','something','else'] 0.22, 0.56, 0]

ОБНОВЛЕНИЕ: Согласно запросу, ссылка на образец полученного файла JSON находится на https://github.com/cookie1986/STT_test

Как восстановить разговор из речевого преобразования текста Уотсона?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как восстановить разговор из речевого преобразования текста Уотсона?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов