Я недавно использовал функцию распознавания текста в Adobe Acrobat Pro для обработки японского словаря кандзи. Общее качество вывода, как правило, немного лучше, чем я ожидал, но границы слов в английских частях текста часто теряются. Например, вот одна строка из моего файла:
softening;weakening(ofthemarket)8 CHANGE [transform] oneselfINTO,takethe form of; disguise oneself
Я мог бы обойти и вставить пропущенные границы слов повсюду, но это добавило бы к тому, что уже является существенной задачей. Я надеюсь, что может существовать программное обеспечение, которое может анализировать текст, подобный этому, где некоторые слова объединяются и разбивают текст на вероятные границы слов. Есть ли такой пакет?
Я использую Emacs, поэтому было бы очень приятно, если бы рассматриваемый пакет уже был пакетом Emacs или мог быть легко интегрирован в Emacs, так что я мог бы просто навести курсор на строку, подобную приведенной выше, и повторно вызывать какую-либо команду, которая разбивает строку на границах слов в порядке убывания вероятной правильности.