Есть ли способ удалить строки, используя условие регулярных выражений в кадре данных dask? У меня есть dask dataframe с примерно 100 миллионами строк, и я хочу удалить строки, содержащие «океан» в столбце B, прежде чем обработать его. Есть ли способ сделать это?
Вот как выглядит фрейм данных:
df = pd.DataFrame({
"A":[34,12,78,84, 96],
"B":['land', '', 'human', 'seagull by the ocean', 'running fox']
})
patternDel = '^.*THE OCEAN.*$'
filter = df['B'].str.contains(patternDel)
df = df[~filter]
Но, похоже, это не работает в моем случае.
К вашему сведению: я не могу использовать здесь панд, поскольку данные не помещаются в память.