У меня есть вывод JSON из службы речевого преобразования текста Уотсона, который я преобразовал в список, а затем во фрейм данных Pandas.
Я пытаюсь определить, как восстановить разговор (с указанием времени), похожий на следующее:
Динамик 0: Сказал это [00.01 - 00.12]
Динамик 1: Сказали, что [00.12 - 00.22]
Динамик 0: сказали что-то еще [00.22 - 00.56]
В моем фрейме данных есть строка для каждого слова и столбцы для слова, его начало/ время окончания и тег динамика (0 или 1).
words = [['said', 0.01, 0.06, 0],['this', 0.06, 0.12, 0],['said', 0.12,
0.15, 1],['that', 0.15, 0.22, 1],['said', 0.22, 0.31, 0],['something',
0.31, 0.45, 0],['else', 0.45, 0.56, 0]]
В идеале я хочу создать следующее: слова, произнесенные одним и тем же говорящим, сгруппированы вместе и разбиты, когда следующий оратор входит:
grouped_words = [[['said','this'], 0.01, 0.12, 0],[['said','that'] 0.12,
0.22, 1],[['said','something','else'] 0.22, 0.56, 0]
ОБНОВЛЕНИЕ: Согласно запросу, ссылка на образец полученного файла JSON находится на https://github.com/cookie1986/STT_test