Как рассчитать нет токенов в текстовом файле в NLP - PullRequest
0 голосов
/ 30 января 2020
from urllib import request
from redditscore.tokenizer import CrazyTokenizer
tokenizer = CrazyTokenizer()
url = "http://www.site.uottawa.ca/~diana/csi5386/A1_2020/microblog2011.txt"
with open('your_file.txt', 'a',encoding='utf-8', errors='replace') as f:
    for line in request.urlopen(url):
        tokens = tokenizer.tokenize(line.decode('utf-8'))
        print(tokens)
        for item in tokens:
            f.write("%s\n" % item)

В вышеупомянутом я токенизировал URL и записал этот вывод в текстовый файл. Как рассчитать количество токенов в файле?

...