Нужно удалить стоп-слова Python и остановить фразы? Какой порядок убрать? Могут ли они все быть одним списком стоп-слов / фраз? - PullRequest
0 голосов
/ 29 октября 2019

Лучше ли очищать данные с помощью стоп-слов и стоп-фраз отдельно? У меня есть датафрейм ниже, но мне нужно удалить определенные фразы и специальные стоп-слова.

import pandas as pd
from nltk.corpus import stopwords
stop = stopwords.words('english')

list_of_phrases_remove = 'I love this asdfasdf car'

stop.append('asdfasdf')

pos_tweets = [('I love this asdfasdf car', 'positive'),
    ('This view is amazing', 'positive'),
    ('I feel great this morning', 'positive'),
    ('I am so excited about the concert', 'positive'),
    ('He is my best friend', 'positive')]

test = pd.DataFrame(pos_tweets)
test.columns = ["tweet","class"]

Что делать, если мне нужно удалить стоп-слово "asdfasdf", а также удалить "я люблю этот автомобиль asdfasdf" из моего списка list_of_phrases_remove?

Каков порядок заказов для удаления стоп-слов, а также определенных фраз из столбца данных в пандусном фрейме текста, подобного этому?

...