Кто-нибудь знает о хорошем быстром и грязном парсере текста / грамматики? - PullRequest
3 голосов
/ 29 ноября 2010

У меня есть сценарий «безумной библиотеки», в котором я хочу

a) определить части речи каждого (или большинства) слов в предложении
b) предложить пользователю выбрать альтернативыэти слова - или заменить их в вычислительном отношении эквивалентными словами

Я посмотрел на анализатор Стэнфорда, но он немного медленный ... какие-либо предложения?

Ответы [ 2 ]

3 голосов
/ 29 ноября 2010

Использование тега POS

Если вы просто используете теги части речи (POS), а не деревья разбора, вам на самом деле не нужно использоватьсинтаксический анализатор.Вместо этого вы можете просто использовать автономный POS-тегер.

POS-теги на намного быстрее, чем синтаксический анализ фразовой структуры.На Xeon E5520 Stanford POS tagger может пометить 1700 предложений за 3 секунды, в то время как те же данные занимают около 10 минут для анализа с использованием Stanford Parser ( Cer et al. 2010 ).

Существует довольно полный список других POS-тегов здесь .

0 голосов
/ 02 декабря 2010

Для подхода инструментария есть инструментарий NLTK. Это в Python, так что скорость для сравнения может быть не совсем то, что вы хотите; но будучи инструментарием, предназначенным для обучения, существует множество различных подходов, которые можно реализовать. То есть. может быть легко реализовать быстрый анализатор / тегер, даже если базовый язык может быть не самым быстрым из доступных.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...