Question

Я хочу собрать количество жетонов. Я хочу узнать, какой токен используется чаще всего? Написанный мной код не работает, поэтому я прокомментировал свой код. Может ли кто-нибудь помочь мне с этой проблемой?

! pip install wget

import wget
url = 'https://raw.githubusercontent.com/dirkhovy/NLPclass/master/data/moby_dick.txt'
wget.download(url, 'moby_dick.txt')


documents = [line.strip() for line in open('moby_dick.txt', encoding='utf8').readlines()]
print(documents[:])

import spacy

nlp = spacy.load('en')

tokens = [[token.text for token in nlp(sentence)] for sentence in documents[:200]]
tokens

# from collections import Counter 

# Counter = Counter(tokens) 
# most_occur = Counter.most_common(10) 
# print(most_occur)

gelonida · Answer 1 · 27 мая 2020

Код

tokens = [[token.text for token in nlp(sentence)] for sentence in documents[:200]]

создает список списков токенов.

Вам нужен список токенов.

попробуйте:

import itertools
tokens = itertools.chain.from_iterable(
    [[token.text for token in nlp(sentence)] for sentence in documents[:200]])

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы