Question

Я сделал обработку данных следующим образом введите описание изображения здесь . Ниже приведен код, который я использовал для обработки данных.

cnn2['text'] = cnn2['text'].str.lower()
cnn2.to_csv('2013_10557_cnn_cleaned.csv')

puncts = '!”#$%&’()*+,-/:;<=>?@[]^_`{|}~'
def remove_punctuation(txt):
    txt_nopunct =''.join([c for c in txt if c not in puncts])
    return txt_nopunct
cnn2['text'] = cnn2['text'].str.replace('"', '')
cnn2['text'] = cnn2['text'].str.replace("'", '')
cnn2['text'] = cnn2['text'].apply(lambda x: remove_punctuation(x))
cnn2.to_csv('2013_10557_cnn_cleaned.csv')

cnn2['text'] = cnn2['text'].str.replace('cnn', '')
cnn2.to_csv('2013_10557_cnn_cleaned.csv')
cnn2['text'] = cnn2['text'].str.replace('washington', '')
cnn2['text'] = cnn2['text'].str.replace('new york', '')
cnn2['text'] = cnn2['text'].str.replace('seoul south korea', '')
cnn2['text'] = cnn2['text'].str.replace('pyongyang north korea', '')
cnn2.to_csv('cnn_cleaned.csv')

Теперь мне нужно заключить в скобки cnn2['text'] (столбец с именем «текст») и перезаписать столбец. Но я не знаю, как это сделать. Ниже приведен код, который я пробовал, но он не работает, и я получаю TypeError: expected string or bytes-like object из sent = sent_tokenize(cnn2['text'][i]). Что мне делать?

import nltk

from nltk.tokenize import sent_tokenize, word_tokenize 
nltk.download('punkt')

for i in range(518):
    sent = sent_tokenize(cnn2['text'][i])
    cnn2['text'][i] = sent

Как отправить столбец

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как отправить столбец

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы