Скажем, у меня есть список слов:
listOfWords = ['Apple','Orange','Banana','Potato']
И мой фрейм данных выглядит следующим образом:
In:
ColumnA:
['Apple','Turnip','Banana','Potato']
['Apple','Orange','Banana','Potato']
['Apple','Orange','Pastry','Potato']
['Melon','Orange','Banana','Potato']
['Apple','Orange','Banana','Sandwich']
В настоящее время я выполняю следующий код для получения желаемого результата
for index, row in df.iterrows():
for word in df['Column']:
if word not in listOfWords:
word.replace(word,"")
Out:
ColumnA:
['Apple','Banana','Potato']
['Apple','Orange','Banana','Potato']
['Apple','Orange','Potato']
['Orange','Banana','Potato']
['Apple','Orange','Banana']
В настоящее время я запускаю это на 12 000 записей и список длиной 12 000.Он работал без ошибок в течение нескольких часов, однако я не уверен, является ли это наиболее эффективным способом сделать это.