вернуться к оригиналу после слово-токенизации - PullRequest
0 голосов
/ 23 февраля 2020

У меня 10 563 отзыва, и я применил этапы предварительной обработки, такие как токенизация, нормализация, удаление стоп-слов и т. Д. c. Моя проблема заключается в том, как сохранить результаты в файл Excel обратно в качестве отзывов.

cl_data = []
x = ''.join(str(v) for v in reviews)
norm = normalize(x)
sw = stopwords.words('english')
tokens = nltk.word_tokenize(x)
stopped_tokens = [i for i in tokens if not i in sw]
exclude = set(string.punctuation)
punc_free = [ch for ch in stopped_tokens if ch not in exclude]
norm_ar =  [no for no in punc_free if no  in norm]

результатом является список слов для каждого отзыва, например:

[ 'great','place'......]

любая помощь? заранее спасибо

...