Как насчет этого? -
Если вы хотите разбить твит на слова, тогда -
s = 'fell down the stairs and ate an apple so no doctor #quarantine'
allwords = s.split(' ')
allwords
#output
['fell', 'down', 'the', 'stairs', 'and', 'ate', 'an', 'apple', 'so', 'no', 'doctor','#quarantine']
Затем вы можете разделить слова тегом #, сделав это -
hastags = [i for i in allwords if i[:1]=='#']
hastags
#output
['#quarantine']
Далее вы можете отфильтровать наши слова с тегами #, сделав это -
otherwords = [i for i in allwords if i not in hastags]
otherwords
#output
['fell', 'down', 'the', 'stairs', 'and', 'ate', 'an', 'apple', 'so', 'no', 'doctor']
Для больших наборов данных и длинного списка определенных c хэштегов я бы рекомендовал сделать это -
tags = ["corona", "quarantine", "covid19"]
[i for i in s.split(' ') if i.strip('#') not in tags]
#output
['fell', 'down', 'the', 'stairs', 'and', 'ate', 'an', 'apple', 'so', 'no', 'doctor']
Если у вас есть ситуация, когда теги, используемые для фильтрации твитов, могут НЕ иметь # перед ними, но вы все равно хотите их отфильтровать, тогда -
tags = ["corona", "quarantine", "covid19"]
print([i for i in s.split(' ') if i.strip('#') not in tags and i not in tags])
#output
['fell', 'down', 'the', 'stairs', 'and', 'ate', 'an', 'apple', 'so', 'no', 'doctor']