Я изучаю конструкцию компилятора с использованием python, я пытаюсь создать список всех слов в нижнем регистре в тексте, а затем вывести BigramCollocationFinder
, который мы можем использовать для поиска биграмм, которые представляют собой пары слов.
Эти биграммы находятся с использованием функций измерения ассоциации в пакете nltk.metrics
.
Я практикуюсь из "Обработка текста на Python 3 с помощью NLTK 3 Cookbook" , и я нашел этот пример кода:
from nltk.corpus import webtext
from nltk.collocations import BigramCollocationFinder
from nltk.metrics import BigramAssocMeasures
words = [w.lower() for w in webtext.words('grail.txt')]
bcf = BigramCollocationFinder.from_words(words)
bcf.nbest(BigramAssocMeasures.likelihood_ratio, 4)
Я застрял на:
bcf.nbest(BigramAssocMeasures.likelihood_ratio, 4)
likelihood_ratio, 4
Здесь это означает коэффициент сходства или что это означает в этом коде.
Любые указания по этому вопросу будут высоко оценены.