Я работаю над проектом, который включает биграммы, но я не знаю, как удалить повторяющиеся биграммы.
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
file_content = open("corpus.txt").read()
Tokens = nltk.word_tokenize(file_content)
nltk_tokens = nltk.word_tokenize(file_content)
ordered_tokens = set()
result = []
for word in file_content:
if word not in ordered_tokens:
ordered_tokens.add(word)
result.append(word)
print(result)
Вывод:
[('the', 'first'): 3, ('first', 'Secretary'): 3, ('Secretary', 'the'): 1,]
Мне нужно удалить / скрытьповторные биграммы.Конечный результат должен быть
[('the', 'first'): 1, ('first', 'Secretary'): 1, ('Secretary', 'the'): 1,]