Как я могу использовать "BigramCollocationFinder", чтобы найти "Bigrams"? - PullRequest
1 голос
/ 24 апреля 2019

Я изучаю конструкцию компилятора с использованием python, я пытаюсь создать список всех слов в нижнем регистре в тексте, а затем вывести BigramCollocationFinder, который мы можем использовать для поиска биграмм, которые представляют собой пары слов.

Эти биграммы находятся с использованием функций измерения ассоциации в пакете nltk.metrics.

Я практикуюсь из "Обработка текста на Python 3 с помощью NLTK 3 Cookbook" , и я нашел этот пример кода:

from nltk.corpus import webtext
from nltk.collocations import BigramCollocationFinder
from nltk.metrics import BigramAssocMeasures
words = [w.lower() for w in webtext.words('grail.txt')]
bcf = BigramCollocationFinder.from_words(words)
bcf.nbest(BigramAssocMeasures.likelihood_ratio, 4)

Я застрял на:

bcf.nbest(BigramAssocMeasures.likelihood_ratio, 4)
likelihood_ratio, 4

Здесь это означает коэффициент сходства или что это означает в этом коде.

Любые указания по этому вопросу будут высоко оценены.

1 Ответ

1 голос
/ 24 апреля 2019

Я считаю, NLTK словосочетания для конкретных слов должны ответить на ваш вопрос. Сначала он вычисляет PMI и возвращает 4 верхних слова, которые очень часто встречаются в вашем корпусе.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...