Как убрать повторные биграммы с помощью nltk - PullRequest
0 голосов
/ 28 июня 2019

Я работаю над проектом, который включает биграммы, но я не знаю, как удалить повторяющиеся биграммы.

import nltk
from nltk.tokenize import sent_tokenize, word_tokenize

file_content = open("corpus.txt").read()

Tokens = nltk.word_tokenize(file_content)

nltk_tokens = nltk.word_tokenize(file_content)

ordered_tokens = set()
result = []
for word in file_content:
    if word not in ordered_tokens:
        ordered_tokens.add(word)
        result.append(word)

print(result)

Вывод:

[('the', 'first'): 3, ('first', 'Secretary'): 3, ('Secretary', 'the'): 1,]

Мне нужно удалить / скрытьповторные биграммы.Конечный результат должен быть

[('the', 'first'): 1, ('first', 'Secretary'): 1, ('Secretary', 'the'): 1,]
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...