Вы начинаете с вызова spacy.load()
с языковой моделью.Это будет в зависимости от выбранной вами модели загружать токенайзер, тегер, парсер, NER и векторы слов для выбранного вами языка.Это хранится в переменной с именем nlp
в документации spaCy
.
nlp = spacy.load(language_model)
Теперь мы можем вызывать nlp()
с любой текстовой строкой.Так почему не работает: nlp(df['column_with_strings'])
?Поскольку df['column_with_strings']
не является строкой, это pandas.Series
:
TypeError: Аргумент 'string' имеет неправильный тип (ожидаемая строка, полученная серия)
Поэтому вам нужно вызвать nlp()
для каждого значения в pandas.Series
.Вы можете сделать это, построив функцию и используя df['column_with_strings'].apply()
или итерируя по каждой строке в серии.