Многоязычная проверка орфографии с определением языка - PullRequest
7 голосов
/ 03 мая 2011

Я работаю над проверкой орфографии на веб-страницах на разных языках и не смог найти ни одного существующего исследования по этому вопросу.

Цель состоит в том, чтобы автоматически определить язык на уровне предложения на веб-страницах со смешанным языком и автоматически проверить правописание каждого из них на соответствующем языке. Предположим, что мы можем игнорировать предложения, в которых смешаны несколько языков (например, «У него есть определенное имя»), и предположим, что веб-страницы не могут содержать более 2 или 3 языков.

Тривиальный пример (валлийский + английский): http://wales.gov.uk/

Я сейчас использую смесь:

  • Распределение символов (например, 0600-06FF = арабский и т. Д.)
  • н-граммы для распознавания языков с похожими символами
  • Поиск в словаре для определения локали, т. Е. En-US, en-GB

У меня есть рабочий код, но я обеспокоен тем, что он может быть наивным или излишне изобретать колесо. Кто-нибудь еще делал это раньше?

Ответы [ 2 ]

2 голосов
/ 04 мая 2011

Вы можете использовать API (Google & Yandex) для проверки орфографии и определения языка - но я думаю, что эта опция не очень масштабируема.

Другой вариант - использовать бесплатные инструменты lucene для проверки орфографии http://wiki.apache.org/lucene-java/SpellChecker, но сначала нужно проиндексировать некоторые корпоративные объекты - Википедия - хороший выбор.LD может быть заархивирован по http://textcat.sourceforge.net/

0 голосов
/ 20 сентября 2014

С помощью библиотеки Languagetool http: /www.languagetool.org вы можете выбрать нужные языки и проверить содержимое на соответствие вашему набору языков. Например. для французского / английского веб-сайта вы должны сравнить текст на английском и французском Очевидно, что при проверке на неправильном языке будет больше ошибок.

Пример:

Если вы, например, проверить французский текст с http://fr.wikipedia.org/wiki/Charte_de_la_langue_fran%C3%A7aise:

La Charte de la langue française (communément appelée la loi 1011) est 
une loi définissant les droits linguistiques de tous les citoyens du 
Québec et faisant du français la langue officielle du Québec.

на http://www.languagetool.org не будет отображаться ошибок для французского и более 20 ошибок для английского / ГБ.

Соответствующий текст на английском языке:

The Charter of the French Language (French: La charte de la langue française), also 
known as Bill 101 (Law 101 or French: Loi 101), is a law in the province of Quebec 
in Canada defining French, the language of the majority of the population, as the 
official language of Quebec and framing fundamental language rights. It is the central
legislative piece in Quebec's language policy.

покажет 4 ошибки для английского / британского (из-за французского цитирования) и более 20 ошибок, если вы проверите его снова на французском языке.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...