Я задал вопрос, похожий на этот вопрос пару недель назад, но я не правильно задал вопрос. Поэтому я переспрашиваю здесь вопрос с более подробной информацией, и я хотел бы получить более ориентированный на ИИ ответ.
У меня есть список товаров, которые более или менее совпадают. Например, в приведенном ниже списке это все жесткие диски Seagate.
- Жесткий диск Seagate 500Go
- Жесткий диск Seagate 120Go для ноутбука
- Seagate Barracuda 7200.12 ST3500418AS 500 ГБ, 7200 об / мин, жесткий диск SATA 3,0 Гбит / с
- Новый жесткий диск 500Go от Seagate
- Seagate Barracuda 7200.12
- Внешний жесткий диск Seagate FreeAgent, 500 ГБ, внешний жесткий диск, серебристый, 7200 об. / Мин, USB2.0, розничная торговля
- GE Spacemaker Laudry
- Mazda3 2010
- Mazda3 2009 2.3L
Для человека жесткие диски 3 и 5 одинаковы. Мы могли бы пойти немного дальше и предположить, что продукты 1, 3, 4 и 5 одинаковы и поместить в другие категории продукт 2 и 6.
В моем предыдущем вопросе кто-то предложил мне использовать функцию извлечения. Это работает очень хорошо, когда у нас есть небольшой набор данных с предопределенными описаниями (все жесткие диски), но как насчет других видов описания? Я не хочу начинать писать экстракторы функций на основе регулярных выражений для всех описаний, с которыми может столкнуться мое приложение, оно не масштабируется. Есть ли какой-нибудь алгоритм машинного обучения, который мог бы помочь мне достичь этого? Диапазон описания, который я могу получить, очень широк, в строке 1 это может быть холодильник, а затем на следующей строке жесткий диск. Должен ли я пойти по нейронной сети? Какими должны быть мои данные?
Спасибо за помощь!