Question

Как мы все знаем, большая трудность в изучении больших данных состоит в том, что трудно получить доступ к крупномасштабным данным и машинам, и только принцип может быть изучен через локальные виртуальные машины.Теперь у меня есть доступ к кластеру более тысячи.Как разумно его использовать?

Charlie Flowers · Answer 1 · 28 июня 2019

Я бы сказал обратное. Смысл массивных механизмов распределенной обработки, таких как Spark, Flink и т. Д., Заключается в том, что код, который вы пишете для обработки данных, будет работать для наборов данных произвольного размера. Вы можете сделать это на ВМ или на своем ноутбуке со 100 записями, и он будет работать более или менее так же, как если бы вы обрабатывали 100 миллиардов записей в кластере из 1000 узлов, предполагая, что ваши входные данные могут быть легко распараллелены и не слишком искажены. Я не уверен, почему у вас есть столько машин, доступных вам без четкой цели, но есть тонны общедоступных наборов данных, с которыми вы можете работать.

Как использовать большой кластер Hadoop для обучения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как использовать большой кластер Hadoop для обучения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов