Разбиение строки на соответствующие слова - PullRequest
0 голосов
/ 24 января 2019

После использования парсера PDF (pdfminer) и токенизации (пакет nltk) у меня есть несколько строковых слов, которые на самом деле являются комбинацией других слов, но не имеют знаков препинания или пробелов для простого разбиения.

В моих выходных данных есть много правильных разбиений слов, но иногда и такие элементы, как: 'simpleexamplelabeleddatalikelihood' - в идеале я бы хотел разделить это на 'simple', 'example', 'метка', 'data', 'правдоподобие'. Я буду работать с большим количеством документов, и поэтому, скорее всего, получу несколько очень странных комбинаций слов / ~ строк предложений и не смогу предсказать, какие слова объединяются, фактически не просматривая вывод и делая это вручную. Существуют ли пакеты, в которых было бы сказано: «О, эта строка является составной из слов X, Y & Z, поэтому давайте разделим ее на X, Y & Z?» Если таковой существует, действительно ли он точен? Мои личные мысли заключаются в том, что эта проблема выглядит наполовину безнадежной из-за таких проблем, как имя «Thea», разбиваемое на «и», но, возможно, эти случаи достаточно редки, так что существует пакет с точными данными. ?

1 Ответ

0 голосов
/ 25 января 2019

Не уверен, в какой степени эта проблема будет связана с проблемой расщепления соединений (то есть, в некоторой степени, конечно, но звучит так, как будто ваш вклад в основном не будет реальными соединениями). Но вы можете посмотреть в этом направлении для ответов, возможно, проверьте https://pypi.org/project/compound-word-splitter/?

...