Я пишу утилиту для переноса существующих данных Oracle Prod в cassandra для конкретного модуля проекта.
Для этого я использую spark-sql, соединитель dasastax cassandra, apache cassandra.В настоящее время я:
- считываю данные из таблицы оракулов и формирую фрейм данных
- Обрабатываю фрейм данных
- , загружая данные фрейма данных в базу данных Cassandra.
Хотя он отлично работает в моей среде разработки.Мой старший говорит, что он должен предоставить «область / данные этапа», откуда я могу снова запросить, если возникнут какие-либо проблемы с сетью, вместо чтения из производственной базы данных Oracle.
Мой вопрос:
- Зачем мне нужны данные / область рабочей области?
- Если необходимо, где я должен размещать свои кадры данных, прочитанные из Oracle?
- Если я выберу hdfs в качестве рабочей области, эти узлы будут равныВероятность сбоя в работе моих узлов Кассандры, а также проблемы с сетью также возникает.тогда какая польза от наличия данных / области этапа в моем случае?
- Какие еще меры предосторожности мне нужно позаботиться о моем модуле миграции?
спасибо.