После использования парсера PDF (pdfminer) и токенизации (пакет nltk) у меня есть несколько строковых слов, которые на самом деле являются комбинацией других слов, но не имеют знаков препинания или пробелов для простого разбиения.
В моих выходных данных есть много правильных разбиений слов, но иногда и такие элементы, как: 'simpleexamplelabeleddatalikelihood' - в идеале я бы хотел разделить это на 'simple', 'example', 'метка', 'data', 'правдоподобие'. Я буду работать с большим количеством документов, и поэтому, скорее всего, получу несколько очень странных комбинаций слов / ~ строк предложений и не смогу предсказать, какие слова объединяются, фактически не просматривая вывод и делая это вручную. Существуют ли пакеты, в которых было бы сказано: «О, эта строка является составной из слов X, Y & Z, поэтому давайте разделим ее на X, Y & Z?» Если таковой существует, действительно ли он точен?
Мои личные мысли заключаются в том, что эта проблема выглядит наполовину безнадежной из-за таких проблем, как имя «Thea», разбиваемое на «и», но, возможно, эти случаи достаточно редки, так что существует пакет с точными данными. ?