Я делаю проект по анализу содержимого блога, и мне нужна помощь, чтобы определить, какой инструмент использовать.Когда я использую синтаксический анализатор, когда я использую тегер и когда мне нужно использовать инструмент NER?
Например, я хочу выяснить наиболее обсуждаемые темы / темы между несколькими блогами;использовать метку части речи, чтобы захватить существительные и подсчитать частоту?Это, вероятно, будет недостаточно, потому что могут появиться очень общие термины, верно?Или у меня есть список категорий и этих синонимов, с которыми я могу сопоставить?
Кстати, я использую nltk, но смотрю на тэнджер или парсер из stanford, так как несколько парней сказали, что это хорошо.