Может ли Google Data Fusion выполнять такую ​​же очистку данных, как DataPrep? - PullRequest
1 голос
/ 01 октября 2019

Я хочу запустить модель машинного обучения с некоторыми данными. Прежде чем обучать модель этим данным, мне нужно обработать ее, поэтому я прочитал несколько способов сделать это.

  1. Прежде всего создайте конвейер потока данных, чтобы загрузить его в Bigquery или Google. Облачное хранилище, затем создайте конвейер данных с помощью Google Dataprep для его очистки.

  2. Другой способ, которым я могу воспользоваться, - это Data Fusion, который может создавать конвейеры данных проще, но яне знаю, и вот мое сомнение, Data Fusion это только для создания конвейера, как Dataflow, а затем я должен использовать DataPrep для очистки данных или, если Data Fusion может очистить данные и подготовить их для включения в мою модель машинного обучения.

Если Data Fusion может очистить данные как DataPrep, когда мне следует использовать DataPrep?

1 Ответ

1 голос
/ 01 октября 2019

Datafusion и Datapred могут выполнять одно и то же. Однако их исполнение отличается.

  • Datafusion создает конвейер Spark и запускает его в кластере Dataproc
  • Datapred создает конвейер Beam и запускает его в потоке данных

IMO, Datafusion - это большеПредназначен для приема данных из одного источника в другой с небольшим преобразованием. Dataprep больше предназначен для подготовки данных (как его имя означает), очистки данных, создания новых столбцов, разделения столбцов. Dataprep также обеспечивает понимание данных для помощи вам в ваших рецептах.

Кроме того, Beam является частью Tensorflow Extended , и ваш конвейер Data Engine будет более последовательным, если вы используете инструментсовместим с Beam

То есть я рекомендую Dataprep вместо Datafusion.

...