Question

Я недавно использовал функцию распознавания текста в Adobe Acrobat Pro для обработки японского словаря кандзи. Общее качество вывода, как правило, немного лучше, чем я ожидал, но границы слов в английских частях текста часто теряются. Например, вот одна строка из моего файла:

softening;weakening(ofthemarket)8 CHANGE [transform] oneselfINTO,takethe form of; disguise oneself

Я мог бы обойти и вставить пропущенные границы слов повсюду, но это добавило бы к тому, что уже является существенной задачей. Я надеюсь, что может существовать программное обеспечение, которое может анализировать текст, подобный этому, где некоторые слова объединяются и разбивают текст на вероятные границы слов. Есть ли такой пакет?

Я использую Emacs, поэтому было бы очень приятно, если бы рассматриваемый пакет уже был пакетом Emacs или мог быть легко интегрирован в Emacs, так что я мог бы просто навести курсор на строку, подобную приведенной выше, и повторно вызывать какую-либо команду, которая разбивает строку на границах слов в порядке убывания вероятной правильности.

pestilence669 · Answer 1 · 13 февраля 2010

Я ничего не знаю о том, что уже существует.

Самый простой метод - просто сопоставить набор самых длинных слов, содержащихся в вашей строке, со словарем. Конечно, может быть много слов, поэтому вам придется планировать все комбинации и перестановки. Это вычислительно дорого делать таким образом, но писать довольно быстро.

Sean · Answer 2 · 10 мая 2010

Я тоже ничего не смог найти, и в итоге я выбрал более интерактивный подход .

Расщепление строки по вероятным границам английского слова

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Расщепление строки по вероятным границам английского слова

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы