Я сделал обработку данных следующим образом введите описание изображения здесь . Ниже приведен код, который я использовал для обработки данных.
cnn2['text'] = cnn2['text'].str.lower()
cnn2.to_csv('2013_10557_cnn_cleaned.csv')
puncts = '!”#$%&’()*+,-/:;<=>?@[]^_`{|}~'
def remove_punctuation(txt):
txt_nopunct =''.join([c for c in txt if c not in puncts])
return txt_nopunct
cnn2['text'] = cnn2['text'].str.replace('"', '')
cnn2['text'] = cnn2['text'].str.replace("'", '')
cnn2['text'] = cnn2['text'].apply(lambda x: remove_punctuation(x))
cnn2.to_csv('2013_10557_cnn_cleaned.csv')
cnn2['text'] = cnn2['text'].str.replace('cnn', '')
cnn2.to_csv('2013_10557_cnn_cleaned.csv')
cnn2['text'] = cnn2['text'].str.replace('washington', '')
cnn2['text'] = cnn2['text'].str.replace('new york', '')
cnn2['text'] = cnn2['text'].str.replace('seoul south korea', '')
cnn2['text'] = cnn2['text'].str.replace('pyongyang north korea', '')
cnn2.to_csv('cnn_cleaned.csv')
Теперь мне нужно заключить в скобки cnn2['text']
(столбец с именем «текст») и перезаписать столбец. Но я не знаю, как это сделать. Ниже приведен код, который я пробовал, но он не работает, и я получаю TypeError: expected string or bytes-like object
из sent = sent_tokenize(cnn2['text'][i])
. Что мне делать?
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
nltk.download('punkt')
for i in range(518):
sent = sent_tokenize(cnn2['text'][i])
cnn2['text'][i] = sent