У меня есть pandas фрейм данных. У него есть некоторые значения None. Я пытаюсь заменить их пустой строкой. Вот код, который я уже написал.
data = pd.read_csv("./Drugs/drugsComTrain_raw.csv", skipinitialspace = True)
data["condition"] = data["condition"].fillna(value=np.nan, inplace=True)
data["condition"] = data["condition"].replace(np.nan, "Empty", inplace=True)
Но этого не происходит. Потому что, когда я пытаюсь уместить данные в векторизатор, кажется, что значение None по-прежнему остается. Ниже приведен код, в котором я получаю сообщение об ошибке
def preprocess_text(text):
print(f"text: {text}")
print(f"type: {type(text)}")
tokeniser = RegexpTokenizer(r'\w+')
tokens = tokeniser.tokenize(text)
lemmatiser = WordNetLemmatizer()
lemmas = [lemmatiser.lemmatize(token.lower(), pos='v') for token in tokens]
keywords= [lemma for lemma in lemmas if lemma not in stopwords.words('english')]
return keywords
vectoriser = TfidfVectorizer(analyzer=preprocess_text)
condition = pd.DataFrame(vectoriser.fit_transform(data["condition"]).toarray())
Вот полученная ошибка.
введите описание изображения здесь