Соответствие свойств гетерогенных данных с использованием глубокого обучения - PullRequest
1 голос
/ 25 октября 2019

Проблема, с которой я сталкиваюсь, заключается в том, что я хочу сопоставить свойства (дома / квартиры и т. Д.), Которые похожи друг на друга (например, долгота и широта (числовые), спальни (числовые), район (категориальные), условия (категориальные) и т. Д. .) используя глубокое обучение. Данные неоднородны, потому что мы смешиваем числовые и категориальные данные, и проблема не контролируется, потому что мы не используем никаких меток.

Моя цель - определить, насколько похожи свойства, чтобы я мог найти самые подходящиедля каждого целевого свойства. Я мог бы использовать KNN, но я хочу использовать что-то, что позволяет мне находить вложения и использует глубокое обучение.

Полагаю, я мог бы определить смешанную меру расстояния, такую ​​как расстояние Гауэра, как функцию потерь, но какя бы пошел о настройке модели, которая определяет, скажем, топ-10 совпадений для каждого целевого свойства в моем образце?

Любая помощь или указания на похожие наборы проблем (Kaggle, notebooks, github) были бы оченьоценил.

Спасибо

1 Ответ

1 голос
/ 25 октября 2019

Учитывая, что вам нужен неконтролируемый подход, вы можете попробовать использовать авто-кодировщик. Я обнаружил, что Variational Auto-Encoders (VAE) очень хороши для решения других проблем. Изученное вложение должно в некоторой степени учитывать расстояние во входном пространстве, но вам может потребоваться слегка изменить функцию потерь, если вы хотите, чтобы примеры были разделены особым образом.

Чтобы получить верхний k, вы можетеПросто закодируйте каждый пример, вычислите матрицу расстояний и возьмите верхнюю букву k в каждой строке (или столбце).

У меня есть реализация VAE (и других) в Pytorch: здесь для вашегодля справки, очевидно, вам понадобится другая сетевая архитектура для обработки категориальных аспектов и т. д.

Надеюсь, это поможет!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...