Я пытаюсь проверить команды dask, найденные на этой странице ...
https://extrapolations.dev/blog/2015/07/reproduceit-reddit-word-count-dask/
В этой строке возникла ошибка:
words = body.map (nltk.word_tokenize) .concat ()
Я полагаю, что dask API изменился с момента публикации статьи. Как мне переписать его, используя этот файл ...
aws s3 cp s3: // reddit-comments / 2007 / RC_2007-10.
Мне удалось запустить этот код так далеко:
import re
import json
import time
import nltk
import dask
import dask.bag as db
import nltk
from nltk.corpus import stopwords
data = db.read_text("RC_2007-10" ).map(json.loads)
no_stopwords = lambda x: x not in stopwords.words('english')
is_word = lambda x: re.search("^[0-9a-zA-Z]+$", x) is not None
subreddit = data.filter(lambda x: x['subreddit'] == 'movies')
bodies = subreddit.pluck('body')