Итак, в моем фрейме данных у меня есть столбец «Актеры», который содержит несколько «фамилий, фамилий и имен» актеров.
Например: «Деннис Кристофер, Деннис Куэйд, Даниэль Стерн» как тип «категория»
Когда я использую CountVectorizer().fit_transform(df['Actors'])
, эта группа будет разбита на 6 слов. Я бы хотел, чтобы функция не учитывала '' (пробел) между именами, а только ", так чтобы в предыдущем примере она была разбита на 3 слова.
vectorizer = CountVectorizer()
Actors_f = vectorizer.fit_transform(df.loc[df['Actors'].notna(), 'Actors'])
Есть ли способ сделать это?