Настройте модель ML для проблемы с связью записей - PullRequest
0 голосов
/ 29 апреля 2019

У меня есть требование, заключающееся в реализации алгоритма машинного обучения с использованием Pyspark в Azure Cloud.Модель должна связывать записи из двух наборов данных, содержащих финансовые данные.Я совершенно новичок в обучении механической обработке и ищу лучший подход для решения этой проблемы.

Это ссылки, которые были мне полезны:

MICROSOFT DATACAMP

Данные должны сопоставляться с использованием двух данных CSVисточники.Оба из которых имеют поля, которые могут отображаться, но могут иметь различный формат (например, формат даты в первом источнике данных - DDMMAAAA, второй источник данных имеет формат DD / MM / AAAA для полей даты).

Окончательный набор данных должен состоять из сущностей без дубликатов и одного дополнительного поля, представляющего статус текущей сущности, который рассчитывается на основе состояния похожих строк из второго источника данных.

Заранее благодарим вас за помощь.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...