Интересная проблема для игры, если предположить, что лексикона значимых сложных слов, которые вы могли бы использовать, уже нет.И мне бы очень хотелось, чтобы «информатика» была актуальной темой.
Давайте возьмем такой подход, что мы ничего не знаем о составных словах в английском, будь то «знак остановки» столь же значимо отличается от «стопа» и«знак» как «лучше» от «делает» и «лучше»
Разбивая его, вы хотите построить процесс, который:
- Идентифицирует совмещенные пары
- Отбрасывает любые, которые явно не связаны как составные слова (то есть части речи, собственные имена или знаки препинания)
- Сохраняет пары кандидатов
- Анализирует пары кандидатов для частоты
- Обучает вашу систему искать наиболее ценные пары кандидатов
Это точное описание?Если это так, я думаю, что инструмент, который вы запрашиваете, будет в (4) или (5).Для 4) рассмотрим ассоциативное правило в библиотеке Python Orange как начало.Вы также можете использовать TF-IDF из scikit-learn.Для 5) вы можете выставить вывод из 4) в виде списка, набора или словаря строк со счетчиками.