Расщепление строки по вероятным границам английского слова - PullRequest
1 голос
/ 13 февраля 2010

Я недавно использовал функцию распознавания текста в Adobe Acrobat Pro для обработки японского словаря кандзи. Общее качество вывода, как правило, немного лучше, чем я ожидал, но границы слов в английских частях текста часто теряются. Например, вот одна строка из моего файла:

softening;weakening(ofthemarket)8 CHANGE [transform] oneselfINTO,takethe form of; disguise oneself

Я мог бы обойти и вставить пропущенные границы слов повсюду, но это добавило бы к тому, что уже является существенной задачей. Я надеюсь, что может существовать программное обеспечение, которое может анализировать текст, подобный этому, где некоторые слова объединяются и разбивают текст на вероятные границы слов. Есть ли такой пакет?

Я использую Emacs, поэтому было бы очень приятно, если бы рассматриваемый пакет уже был пакетом Emacs или мог быть легко интегрирован в Emacs, так что я мог бы просто навести курсор на строку, подобную приведенной выше, и повторно вызывать какую-либо команду, которая разбивает строку на границах слов в порядке убывания вероятной правильности.

Ответы [ 2 ]

1 голос
/ 13 февраля 2010

Я ничего не знаю о том, что уже существует.

Самый простой метод - просто сопоставить набор самых длинных слов, содержащихся в вашей строке, со словарем. Конечно, может быть много слов, поэтому вам придется планировать все комбинации и перестановки. Это вычислительно дорого делать таким образом, но писать довольно быстро.

0 голосов
/ 10 мая 2010

Я тоже ничего не смог найти, и в итоге я выбрал более интерактивный подход .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...