Я грубо-принудительно ответил на эту конкретную проблему; но я все еще хотел бы знать, как это сделать с помощью scikit-learn, так как, возможно, я захочу перейти к tf-idf позже, например.
Учитывая диктовку, полученную
recipe_dict = {recipes.ix[m]['RecipeName']:recipes.ix[m]['Ingredients'].split(',') for m in recipes.index}
Мы делаем следующее:
from functools import reduce
ingredients = reduce(lambda x, y: x+y, recipe_dict.values())
, чтобы получить список всех ингредиентов, а затем цикл
for j in ingredients:
recipes[j] = recipes['RecipeName'].apply(lambda i: 1 if j in recipe_dict[i] else 0)