Я хочу подсчитать количество жетонов. и посмотрите, какой токен используется чаще всего? Мой код, который я написал, не работает, поэтому я прокомментировал свой код - PullRequest
0 голосов
/ 27 мая 2020

Я хочу собрать количество жетонов. Я хочу узнать, какой токен используется чаще всего? Написанный мной код не работает, поэтому я прокомментировал свой код. Может ли кто-нибудь помочь мне с этой проблемой?

! pip install wget

import wget
url = 'https://raw.githubusercontent.com/dirkhovy/NLPclass/master/data/moby_dick.txt'
wget.download(url, 'moby_dick.txt')


documents = [line.strip() for line in open('moby_dick.txt', encoding='utf8').readlines()]
print(documents[:])

import spacy

nlp = spacy.load('en')

tokens = [[token.text for token in nlp(sentence)] for sentence in documents[:200]]
tokens

# from collections import Counter 

# Counter = Counter(tokens) 
# most_occur = Counter.most_common(10) 
# print(most_occur) 

1 Ответ

1 голос
/ 27 мая 2020

Код

tokens = [[token.text for token in nlp(sentence)] for sentence in documents[:200]]

создает список списков токенов.

Вам нужен список токенов.

попробуйте:

import itertools
tokens = itertools.chain.from_iterable(
    [[token.text for token in nlp(sentence)] for sentence in documents[:200]])

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...