TL; DR
from nltk import word_tokenize
from nltk.corpus import stopwords
import pandas as pd
stoplist = set(stopwords.words('english'))
data = pd.read_csv("Test_file.csv")
data['filtered_text'] = data['text'].astype(str).apply(lambda line: [token for token in word_tokenize(line) if token not in stoplist])
В длинных
Пожалуйста, смотрите Почему моя функция NLTK работает медленно при обработке DataFrame? для более подробного объяснения:
- токенизация текста в кадре данных
- удаление стоп-слов
- другие связанные процессы очистки
Для лучшей обработки текста в Твиттере
pip3 install -U nltk[twitter]
Затем используйте это:
из nltk.corpus import stopwords
from nltk.tokenize import TweetTokenizer
import pandas as pd
word_tokenize = TweetTokenizer().tokenize
stoplist = set(stopwords.words('english'))
data = pd.read_csv("Test_file.csv")
data['filtered_text'] = data['text'].astype(str).apply(lambda line: [token for token in word_tokenize(line) if token not in stoplist])