У меня есть пары слов, которые транскрибируются в ARPABET. Я пытаюсь объединить эти слова так, чтобы каждая возможная последовательность сегментов, принимая строгий порядок, была создана Пример может выглядеть следующим образом:
word1 transcription1 word2 transcription2
dog D AA G cat K AE T
объединение transcription1 и transcription2 приведет к чему-то похожему ниже, где оно повторяется по сегментам. Для целей этого игрушечного примера я не включил ни одного сегмента из второго объединяемого слова (например, собака + кошка = собака), но он, вероятно, находится в логическом пространстве.
D K AE T
D AE T
D T
D AA K AE T
D AA AE T
D AA T
D AA G K AE T
D AA G AE T
D AA G T
D AA G
K D AA G
K AA G
K G
K AE D AA G
K AE AA G
K AE G
K AE T D AA G
K AE T AA G
K AE T G
Конечная цель состоит в том, чтобы провести некоторый количественный анализ каждого из этих выходных данных, поэтому сохранение их в большой фрейм данных было бы идеальным, хотя это может стать громоздким из-за объема данных, с которыми я работаю (~ 900 пар слов, 3-7 сегментов каждая). Любая помощь по этой проблеме была бы отличной.