У меня есть набор данных, который состоит из набора текстов. Эти тексты должны быть очищены, поскольку они являются выдержками из форума Reddit или Twitter .
Идея состоит в том, чтобы сохранить только основные слова из этих текстов. Например, я хотел бы не учитывать числа, слова, в которых есть символ «_», и слова, содержащие в себе числа.
У меня есть ограничение на использование только NLTK
библиотека, и, конечно же, Numpy.
Так что я думаю, что я должен использовать токенизатор из этой библиотеки для очистки моих данных, но мне нужна документация / помощь, чтобы понять, как определить шаблон для такой очистки.
Кто-нибудь может мне помочь, пожалуйста?
До сих пор я пробовал этот кусок кода:
tokenizer1 = RegexpTokenizer('\d+|\d')
tokenizer2 = RegexpTokenizer('\w+')
Что я понимаю:
tokenizer1: учитывает только цифры,
tokenizer2: рассматривает строки до следующего пробела, поэтому он по-прежнему включает числа.
Моя идея заключалась в том, чтобы сделать разницу между результатом tokenizer1 и tokenizer2, чтобы удалить числа.
Это работает, но я не знаю, как управлять более сложными аспектами, такими какне считая слова, содержащие цифры.