Tweet Tokenizing Столбец в Dataframe; Получение ошибки - PullRequest
2 голосов
/ 05 мая 2020

У меня есть набор данных с comment_texts. Я хочу токенизировать их, используя код ниже:

from nltk.tokenize import TweetTokenizer
tt = TweetTokenizer()

df['tokenized_text'] = df["comment_text"].apply(tt.tokenize)

Я получаю ошибку ниже, выполнив это:

TypeError                                 Traceback (most recent call last) <ipython-input-32-2e7f772f11fe> in <module>
      2 tt = TweetTokenizer()
      3 
----> 4 df['tokenized_text'] = df["comment_text"].apply(tt.tokenize)

/opt/conda/lib/python3.7/site-packages/pandas/core/series.py in apply(self, func, convert_dtype, args, **kwds)    3846             else:    3847                 values = self.astype(object).values
-> 3848                 mapped = lib.map_infer(values, f, convert=convert_dtype)    3849     3850         if len(mapped) and isinstance(mapped[0], Series):

pandas/_libs/lib.pyx in pandas._libs.lib.map_infer()

/opt/conda/lib/python3.7/site-packages/nltk/tokenize/casual.py in tokenize(self, text)
    293         """
    294         # Fix HTML character entities:
--> 295         text = _replace_html_entities(text)
    296         # Remove username handles
    297         if self.strip_handles:

/opt/conda/lib/python3.7/site-packages/nltk/tokenize/casual.py in
_replace_html_entities(text, keep, remove_illegal, encoding)
    257         return "" if remove_illegal else match.group(0)
    258 
--> 259     return ENT_RE.sub(_convert_entity, _str_to_unicode(text, encoding))
    260 
    261 

TypeError: expected string or bytes-like object

Данные, которые я использую, представляют собой набор поездов соревнований Kaggle: https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data

...