У меня есть набор данных с comment_texts. Я хочу токенизировать их, используя код ниже:
from nltk.tokenize import TweetTokenizer
tt = TweetTokenizer()
df['tokenized_text'] = df["comment_text"].apply(tt.tokenize)
Я получаю ошибку ниже, выполнив это:
TypeError Traceback (most recent call last) <ipython-input-32-2e7f772f11fe> in <module>
2 tt = TweetTokenizer()
3
----> 4 df['tokenized_text'] = df["comment_text"].apply(tt.tokenize)
/opt/conda/lib/python3.7/site-packages/pandas/core/series.py in apply(self, func, convert_dtype, args, **kwds) 3846 else: 3847 values = self.astype(object).values
-> 3848 mapped = lib.map_infer(values, f, convert=convert_dtype) 3849 3850 if len(mapped) and isinstance(mapped[0], Series):
pandas/_libs/lib.pyx in pandas._libs.lib.map_infer()
/opt/conda/lib/python3.7/site-packages/nltk/tokenize/casual.py in tokenize(self, text)
293 """
294 # Fix HTML character entities:
--> 295 text = _replace_html_entities(text)
296 # Remove username handles
297 if self.strip_handles:
/opt/conda/lib/python3.7/site-packages/nltk/tokenize/casual.py in
_replace_html_entities(text, keep, remove_illegal, encoding)
257 return "" if remove_illegal else match.group(0)
258
--> 259 return ENT_RE.sub(_convert_entity, _str_to_unicode(text, encoding))
260
261
TypeError: expected string or bytes-like object
Данные, которые я использую, представляют собой набор поездов соревнований Kaggle: https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data