Question

У меня есть требование, заключающееся в реализации алгоритма машинного обучения с использованием Pyspark в Azure Cloud.Модель должна связывать записи из двух наборов данных, содержащих финансовые данные.Я совершенно новичок в обучении механической обработке и ищу лучший подход для решения этой проблемы.

Это ссылки, которые были мне полезны:

MICROSOFT DATACAMP

Данные должны сопоставляться с использованием двух данных CSVисточники.Оба из которых имеют поля, которые могут отображаться, но могут иметь различный формат (например, формат даты в первом источнике данных - DDMMAAAA, второй источник данных имеет формат DD / MM / AAAA для полей даты).

Окончательный набор данных должен состоять из сущностей без дубликатов и одного дополнительного поля, представляющего статус текущей сущности, который рассчитывается на основе состояния похожих строк из второго источника данных.

Заранее благодарим вас за помощь.

Настройте модель ML для проблемы с связью записей

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Настройте модель ML для проблемы с связью записей

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы