Java Parser для естественного языка - PullRequest
0 голосов
/ 30 сентября 2010

Я ищу синтаксический анализатор (или сгенерированный синтаксический анализатор) в java, способный выполнять следующие действия:

1- Я предоставлю предложения, которые уже помечены как часть речи.Я буду использовать свой собственный набор тегов.2- У меня нет статистических данных.Поэтому, если парсер статистический, я хочу использовать его без этой функции.3- легко адаптируется к другим языкам.Низкая кривая обучения

Мой вопрос немного похож на этот

https://stackoverflow.com/questions/88984/your-favorite-natural-language-parser

Но там нет удовлетворительного ответа.Благодаря.

Ответы [ 2 ]

4 голосов
/ 30 сентября 2010

Stanford Parser (который был указан в этом другом вопросе SO) сделает все, что вы перечислите.

Вы можете предоставить свои собственные POS-теги, но вам нужно будет выполнить некоторый перевод в набор Penn TreeBank, если они еще не в этом формате.Парсеры либо статистические, либо нет.Если это не так, вам нужен набор правил грамматики.Никакие парсеры действительно не созданы таким образом, за исключением игрушек, потому что они действительно плохие.Таким образом, вы можете положиться на статистические данные, которые использует Stanford Parser (без дополнительной работы с вашей стороны).Это, однако, означает, что статистика о ваших собственных тегах (если они не отображаются непосредственно на теги Penn TreeBank) будет игнорироваться.Но так как у вас в любом случае нет статистики для ваших тегов, этого следовало ожидать.

У них есть парсеры, обученные и для нескольких других языков, но вам понадобятся ваши собственные данные с тегами, если вы хотите перейти на языкони не доступны.С этим не обойтись, независимо от того, какой парсер вы используете.

Если вы знаете Java (и я предполагаю, что вы это знаете), то парсер Stanford очень прост и его легко запустить.Также их список рассылки является отличным ресурсом и довольно активным.

1 голос
/ 30 сентября 2010

Я не очень понимаю, что вы хотите, но первое, о чем я подумал, это Маллет:

http://mallet.cs.umass.edu/index.php

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...