У меня есть требование, заключающееся в реализации алгоритма машинного обучения с использованием Pyspark в Azure Cloud.Модель должна связывать записи из двух наборов данных, содержащих финансовые данные.Я совершенно новичок в обучении механической обработке и ищу лучший подход для решения этой проблемы.
Это ссылки, которые были мне полезны:
MICROSOFT DATACAMP
Данные должны сопоставляться с использованием двух данных CSVисточники.Оба из которых имеют поля, которые могут отображаться, но могут иметь различный формат (например, формат даты в первом источнике данных - DDMMAAAA, второй источник данных имеет формат DD / MM / AAAA для полей даты).
Окончательный набор данных должен состоять из сущностей без дубликатов и одного дополнительного поля, представляющего статус текущей сущности, который рассчитывается на основе состояния похожих строк из второго источника данных.
Заранее благодарим вас за помощь.