Как удалить строки с помощью регулярных выражений с Dask? - PullRequest
0 голосов
/ 01 мая 2019

Есть ли способ удалить строки, используя условие регулярных выражений в кадре данных dask? У меня есть dask dataframe с примерно 100 миллионами строк, и я хочу удалить строки, содержащие «океан» в столбце B, прежде чем обработать его. Есть ли способ сделать это?

Вот как выглядит фрейм данных:

df = pd.DataFrame({
"A":[34,12,78,84, 96], 
"B":['land', '', 'human', 'seagull by the ocean', 'running fox']
})
patternDel = '^.*THE OCEAN.*$'
filter = df['B'].str.contains(patternDel)
df = df[~filter]

Но, похоже, это не работает в моем случае.

К вашему сведению: я не могу использовать здесь панд, поскольку данные не помещаются в память.

1 Ответ

0 голосов
/ 01 мая 2019

Вместо того, чтобы усложнять реализацию, вы можете просто использовать функцию отбрасывания данных, предоставленную библиотекой pandas.Пожалуйста, используйте следующую ссылку для использования.https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop.html

...