В настоящее время чистка данных из файла CSV.Успешно сумасшедшие все строчные, удалены пробелы и знаки препинания и т. Д. Но нужно удалить специальные символы.Например, файл csv содержит такие вещи, как «César», «disgra».Если есть способ заменить эти символы, то даже лучше, но я могу удалить их.Ниже приведен код, который у меня есть.
import pandas as pd
from nltk.corpus import stopwords
import string
from nltk.stem import WordNetLemmatizer
lemma = WordNetLemmatizer()
pd.read_csv('soccer.csv', encoding='utf-8')
df = pd.read_csv('soccer.csv')
df.columns = ['post_id', 'post_title', 'subreddit']
df['post_title'] = df['post_title'].str.lower().str.replace(r'[^\w\s]+', '').str.split()
stop = stopwords.words('english')
df['post_title'] = df['post_title'].apply(lambda x: [item for item in x if item not in stop])
df['post_title']= df['post_title'].apply(lambda x : [lemma.lemmatize(y) for y in x])
df.to_csv('clean_soccer.csv')