латинские основы языковой сегментации грамматические правила - PullRequest
3 голосов
/ 12 мая 2010

Я работаю над одной особенностью, то есть над применением правил языковой сегментации (грамматических) для латинского языка (английский в настоящее время).

В настоящее время я нахожусь в фазе разрыва предложений пользовательского ввода.

e.g.:

"I am working in language translation". "I have used Google MT API for this"

В вышеприведенном примере я разбиваю вышеупомянутое предложение на точку (.) Это нормальные случаи, когда я разбиваю предложение на точку, но существует n символов для разбивания предложения, например (.!? Etc).

У меня есть следующие правила SRX для сегментации.

Вот мой вопрос: -

1) Есть ли какая-либо ссылка? , которую я могу использовать для разрешения моих правил сегментации языка.

2) Или есть ли форумы по языковой сегментации? , чтобы я мог эффективно обсудить

Пожалуйста, дайте мне знать, если кто-нибудь знает об этом?

Большое спасибо.

Ответы [ 2 ]

1 голос
/ 12 мая 2010

Возможно, вы захотите взглянуть на статью Рейнара и Ратнапархи Максимальный энтропийный подход к определению границ предложений (1997).

Аннотация

Мы представляем обучаемую модель для идентификации границы предложения в необработанном тексте. Дано корпус, аннотированный границами предложений, наша модель учится классифицировать каждый случай из.,? и / как действительный или недействительный граница предложения. Процедура обучения не требует ручных правил, лексика, теги части речи или предметно-ориентированные Информация. Следовательно, модель может быть легко обучается на любом жанре английского языка, и должен быть обучаем на любом другом Romanalphabet язык. Производительность сопоставима или лучше, чем производительность аналогичные системы, но мы подчеркиваем простоту переподготовки для новых доменов.

Сегментатор их результирующего предложения известен как MxTerminator и доступен здесь .

0 голосов
/ 12 мая 2010

Похоже, что в лингвистических журналах есть много литературы об этом ...

Это хороший отчет о проблеме, надеюсь, он поможет вам http://repository.upenn.edu/cgi/viewcontent.cgi?article=1068&context=ircs_reports

Nico

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...