В настоящее время я хочу подтвердить, что список нграмм (найденных посредством распознавания сущностей) является значимым. Я хочу использовать некоторую меру связи (pmi, log lidortunity и т. Д.).
Я обнаружил, что в nltk вы можете идентифицировать ngram, и этот список можно затем ранжировать с использованием некоторой метрики, подобной той, которую я хочу использовать ( Как получить оценки PMI для триграмм с коллокациями NLTK? Python ). Тем не менее, я не могу найти способ дать список ngram с помощью модуля метрик ассоциации nltk. В некоторых ответах я вижу, что рекомендуется извлечь все нграммы с помощью поисковой системы nltk, а затем отфильтровать этот список из собственного списка нграмм ( словосочетаний NLTK для конкретных слов ). Эта опция кажется нереальной, так как я обрабатываю много данных и хочу, чтобы мой процесс был максимально эффективным.
Может кто-нибудь помочь мне узнать, как использовать nltk для ранжирования списка ранее найденных ngram. Если nltk не позволяет мне делать то, что я хочу, кто-то может порекомендовать какой-нибудь модуль, который уменьшает задачу программирования реализации метрик ассоциации для ранжирования ngrams.