Я прочитал существующие сообщения о том, как удалить не-ASCI символы строки в Python.Но моя проблема в том, что когда я хочу применить его к кадру данных, который я прочитал из файла CSV, он не работает.Есть идеи, почему?
import pandas as pd
import numpy as np
import re
import string
import unicodedata
def preprocess(x):
# Convert to unicode
text = unicode(x, "utf8")
# Convert back to ascii
x = unicodedata.normalize('NFKD',text).encode('ascii','ignore')
return x
preprocess("Ludwig Maximilian University of Munich / M\xc3\xbcnchen (LMU) and Siemens AG")
'Мюнхенский университет им. Людвига Максимилиана (LMU) и Siemens AG'
df = pd.DataFrame(["Ludwig Maximilian University of Munich / M\xc3\xbcnchen (LMU) and Siemens AG"])
df.columns=['text']
df['text'] = df['text'].apply(lambda x: preprocess(x) if(pd.notnull(x)) else x)
df['text'][0]
'Университет Людвига МаксимилианаМюнхен / Мюнхен (LMU) и Siemens AG '
df1 = pd.read_csv('sample.csv')
df1['text'] = df1['text'].apply(lambda x: preprocess(x) if(pd.notnull(x)) else x)
df1['text'][0]
' Мюнхенский университет имени Людвига Максимилиана / M \ xc3 \ xbcnchen (LMU) и Siemens AG '
Обратите внимание, что df1: 
точно так же, как df: 