Лучше ли очищать данные с помощью стоп-слов и стоп-фраз отдельно? У меня есть датафрейм ниже, но мне нужно удалить определенные фразы и специальные стоп-слова.
import pandas as pd
from nltk.corpus import stopwords
stop = stopwords.words('english')
list_of_phrases_remove = 'I love this asdfasdf car'
stop.append('asdfasdf')
pos_tweets = [('I love this asdfasdf car', 'positive'),
('This view is amazing', 'positive'),
('I feel great this morning', 'positive'),
('I am so excited about the concert', 'positive'),
('He is my best friend', 'positive')]
test = pd.DataFrame(pos_tweets)
test.columns = ["tweet","class"]
Что делать, если мне нужно удалить стоп-слово "asdfasdf", а также удалить "я люблю этот автомобиль asdfasdf" из моего списка list_of_phrases_remove?
Каков порядок заказов для удаления стоп-слов, а также определенных фраз из столбца данных в пандусном фрейме текста, подобного этому?