подробности о следующих условиях обработки естественного языка? - PullRequest
4 голосов
/ 21 апреля 2010
Named Entity Extraction (extract ppl, cities, organizations)
Content Tagging (extract topic tags by scanning doc)
Structured Data Extraction
Topic Categorization (taxonomy classification by scanning doc....bayesian )
Text extraction (HTML page cleaning)

Существуют ли библиотеки, которые я могу использовать для выполнения любой из перечисленных выше функций НЛП?

не хочется тратить деньги на AlchemyAPI

Ответы [ 2 ]

8 голосов
/ 21 апреля 2010

На самом деле существует множество свободно доступных пакетов обработки естественного языка с открытым исходным кодом. Вот краткий список, организованный на каком языке реализован инструментарий:

Если вы не уверены, с кем идти, я бы порекомендовал начать с NLTK . Пакет достаточно прост в использовании и имеет отличную документацию онлайн, включая бесплатную книгу .

Вы должны иметь возможность использовать NLTK для простого выполнения перечисленных вами задач NLP, например, распознавание именованных объектов (NER) , извлечение тегов для документов и категоризация документов .

То, что люди из Алхимии называют извлечение структурированных данных выглядит так, как будто это просто утилизация HTML, которая устойчива к изменениям в базовом HTML, пока страница визуально визуализируется одинаково. Так что это не совсем задача НЛП.

Для извлечения текста из HTML просто используйте ilerpipe . Это быстро, хорошо и бесплатно.

1 голос
/ 22 апреля 2010

Проект Apache UIMA изначально был создан IBM и предоставляет структуру NLP, очень похожую на GATE. Существуют различные аннотаторы для UIMA.

...