Python Pandas: NLTK часть тегов речи для всего столбца в Dataframe - PullRequest
0 голосов
/ 19 декабря 2018

У меня есть следующий пример фрейма данных, показанный ниже.Он уже был размечен.

No  category    problem_definition_stopwords
175 2521       ['coffee', 'maker', 'brewing', 'properly', '2', '420', '420', '420']
211 1438       ['galley', 'work', 'table', 'stuck']
912 2698       ['cloth', 'stuck']
572 2521       ['stuck', 'coffee']

Я хочу выполнить пометку части речи в этом фрейме данных.Ниже приведено начало моего кода.Выдает ошибку:

from nltk.corpus import state_union
from nltk.tokenize import PunktSentenceTokenizer 

train_text = state_union.raw(df['problem_definition_stopwords'])

Ошибка

TypeError: join() argument must be str or bytes, not 'list'

Мой желаемый результат ниже, где 'XXX' - это слово с токеном, а после него - часть речи (т. Е. NNP):

[(«XXX», «NNP»), («XXX», «VBD»), («XXX», «POS»)]

1 Ответ

0 голосов
/ 19 декабря 2018

Преобразуйте problem_definition_stopwords в строку и передайте nltk.sent_tokenize, если вы пытаетесь токенизировать и получить POS с помощью pos_tag.

...