from urllib import request
from redditscore.tokenizer import CrazyTokenizer
tokenizer = CrazyTokenizer()
url = "http://www.site.uottawa.ca/~diana/csi5386/A1_2020/microblog2011.txt"
with open('your_file.txt', 'a',encoding='utf-8', errors='replace') as f:
for line in request.urlopen(url):
tokens = tokenizer.tokenize(line.decode('utf-8'))
print(tokens)
for item in tokens:
f.write("%s\n" % item)
В вышеупомянутом я токенизировал URL и записал этот вывод в текстовый файл. Как рассчитать количество токенов в файле?