Spacy NLP с данными из Pandas DataFrame - PullRequest
0 голосов
/ 19 октября 2018

У меня есть большой массив данных pandas ответов на опросные строки, и мы хотели бы опробовать некоторые функции NLP Spacy.В данный момент мы только изучаем возможности, но пытаемся отформатировать данные в формат, который работает с функцией nlp spacy.

В конечном итоге мы хотели бы иметь возможность взглянуть на популярные темы встроковые ответы против их пользовательских данных.

Как запустить конвейер nlp для столбца кадра данных?Или я обойду это неправильно?

1 Ответ

0 голосов
/ 19 октября 2018

Вы начинаете с вызова spacy.load() с языковой моделью.Это будет в зависимости от выбранной вами модели загружать токенайзер, тегер, парсер, NER и векторы слов для выбранного вами языка.Это хранится в переменной с именем nlp в документации spaCy .

nlp = spacy.load(language_model)

Теперь мы можем вызывать nlp() с любой текстовой строкой.Так почему не работает: nlp(df['column_with_strings'])?Поскольку df['column_with_strings'] не является строкой, это pandas.Series:

TypeError: Аргумент 'string' имеет неправильный тип (ожидаемая строка, полученная серия)

Поэтому вам нужно вызвать nlp() для каждого значения в pandas.Series.Вы можете сделать это, построив функцию и используя df['column_with_strings'].apply() или итерируя по каждой строке в серии.

...