Я использую пакет Python NLTK, чтобы генерировать 2-грамм и 3-грамм из моего корпуса. Но я не могу найти, как NLTK может генерировать их из корпуса.
Я нашел это здесь: Введение в N-граммы: что они и зачем они нам нужны? Интересно, есть ли другие алгоритмы для поиска n-граммов? И использует ли NLTK алгоритм в этой статье, чтобы найти n-грамм?
И, как всегда, большое спасибо.
Вы можете перебирать пары / триплеты / последовательности n-длины слов в предложении в виде кортежей, используя zip.
for s in sentences: for w1, w2 in zip(s, s[1:]): bigram = w1, w2