Анализ текста: когда использовать анализатор, тегер, инструмент NER? - PullRequest
1 голос
/ 24 июня 2010

Я делаю проект по анализу содержимого блога, и мне нужна помощь, чтобы определить, какой инструмент использовать.Когда я использую синтаксический анализатор, когда я использую тегер и когда мне нужно использовать инструмент NER?

Например, я хочу выяснить наиболее обсуждаемые темы / темы между несколькими блогами;использовать метку части речи, чтобы захватить существительные и подсчитать частоту?Это, вероятно, будет недостаточно, потому что могут появиться очень общие термины, верно?Или у меня есть список категорий и этих синонимов, с которыми я могу сопоставить?

Кстати, я использую nltk, но смотрю на тэнджер или парсер из stanford, так как несколько парней сказали, что это хорошо.

1 Ответ

3 голосов
/ 09 августа 2010

Вместо того, чтобы пытаться заново изобрести колесо, вы можете прочитать о Тематических моделях, которые в основном создают кластеры слов, которые часто встречаются вместе. Маллет имеет готовый инструментарий для выполнения такой задачи: http://mallet.cs.umass.edu/topics.php.

Чтобы ответить на исходный вопрос, POS-теги, синтаксические анализаторы и инструменты NER обычно не используются для идентификации тем, но более интенсивно используются для таких задач, как извлечение информации, где целью является выявление в документе конкретных действующих лиц, событий места, время и т. д. Например, если у вас было простое предложение, как «Джон дал яблоко Мэри». вы могли бы использовать анализатор зависимостей, чтобы выяснить, что Джон - это субъект, яблоко - это объект, а Мэри - объект предложения; Таким образом, вы знаете, что Джон - это дающий, а Мария - получатель, а не наоборот.

...