Я пытаюсь выполнить задачу извлечения атрибутов из данных электронной торговли (возможно, через LSTM). Мои данные состоят из описаний товаров и ключевых слов, например:
description = "cat food tuna fish 200 gram"
keywords = {"type of pet": "cat", "taste" : "tuna fish", "weight" : "200 gram"}
Я хочу использовать ключи из словаря ключевых слов выше в качестве будущих меток для обучения. Моя проблема в том, что после извлечения всех ключевых слов у меня есть много ключей, которые семантически похожи и имеют повторяющиеся слова, что приводит к приблизительно 2000 меткам. Например: «цвет платья», «цвет стула», «основной цвет», «вес», «вес нетто», «тип материала», «тип дерева» и т. Д.
Я хочу уменьшить количество меток, сгруппировав ключи с одним и тем же словом: если в словарном ключе есть «color», сгруппируйте его под «color» и присвойте все значения этих ключей новому / заменить ключ, "цвет".
На данный момент мой словарь выглядит так:
{"type of material": ["wood", "metal", "rayon"....], "type of
fabric": ["cotton", "lycra"....]}
Я хочу, чтобы это выглядело так:
{"type": ["wood", "metal", "rayon", "cotton", "lycra"]}
Каков наилучший способ сделать это, и является ли это разумным способом приблизиться к маркировке объектов для LSTM?