Какова идея или алгоритм нахождения n-граммы в NLTK? - PullRequest
0 голосов
/ 10 января 2020

Я использую пакет Python NLTK, чтобы генерировать 2-грамм и 3-грамм из моего корпуса. Но я не могу найти, как NLTK может генерировать их из корпуса.

Я нашел это здесь: Введение в N-граммы: что они и зачем они нам нужны? Интересно, есть ли другие алгоритмы для поиска n-граммов? И использует ли NLTK алгоритм в этой статье, чтобы найти n-грамм?

И, как всегда, большое спасибо.

1 Ответ

0 голосов
/ 30 января 2020

Вы можете перебирать пары / триплеты / последовательности n-длины слов в предложении в виде кортежей, используя zip.

for s in sentences:
    for w1, w2 in zip(s, s[1:]):
        bigram = w1, w2
...