Я работаю над проектом, который смотрит на рецепты. Данные содержат более 3 миллионов записей, и я использую dask для обработки данных. Я маркировал название рецепта и хочу исключить определенные поля. В настоящее время я применяю логику в сценарии SQL следующим образом, исключая определенные названия рецептов и комбинации терминов. Мои вопросы: как применить ту же логику к фрейму данных dask:
SELECT match id from table where match_id not in
(SELECT match_id from table where
(term = 'gelat`enter code here`o' and recipe_name like '%Zeroll%') or
(term = 'poachers' and recipe_name like '%Egg%') or
(term = 'poach' and recipe_name like '%Egg%') or
(term = 'waffles' and recipe_name like '%Fries%')
)
import pandas as pd
data = [['1','poach', 'Deviled Eggs'],['2','steam', 'Sweet Dumplings'],['3','chocolate', 'Hot Chocolate']]
df = pd.DataFrame(data,columns=['match_id','term', 'recipename'],dtype=float)
import dask.dataframe as dd
ddf = dd.from_pandas(df, npartitions=1
)