В настоящее время работаю над проектом по науке о данных, и у меня возникают проблемы с подготовкой данных.
В частности, это: Что готовит?
В наборе данных есть строки типа «средние яйца» , «большое яйцо свободного выгула» , «баклажаны» , «крупные яичные белки» , ' китайская яичная лапша ' и ' яйца '
Так что в этом случае я хотел бы найти и заменить все ' средние яйца ' и «большое яйцо свободного выгула» как просто «яйца» , в то время как такие строки, как «баклажаны» и «китайская яичная лапша» должны быть оставлены один. Мне также нужно заменить «большие яичные белки» на «яичные белки»
Другим случаем будет «бобы гарбанзо» и 'нут' , поскольку они ссылаются на один и тот же ингредиент.
Первоначальная попытка состояла в том, чтобы просто найти любую строку с 'egg' в ее строке и заменить ее, но потому что существует очень много условий Я не уверен, какой подход использовать сейчас.
Поскольку это проект классификации, код должен иметь возможность принимать потенциальные ингредиенты, такие как «маленькое яйцо», и все же понимать его как 'яйца'