Datapro c: горячие данные в HDFS, холодные данные в облачном хранилище? - PullRequest
2 голосов
/ 09 марта 2020

Я учусь на Профессионального инженера данных, и мне интересно, что такое «рекомендуемая Google передовая практика» для горячих данных в Datapro c (учитывая, что затраты не имеют значения)?

Если стоимость В связи с этим я обнаружил рекомендацию хранить все данные в облачном хранилище, потому что это дешевле.

Можно ли настроить механизм, чтобы все данные находились в облачном хранилище, а последние данные автоматически кэшировались в HDFS? Нечто подобное AWS делает с FSx / Luster и S3.

Ответы [ 2 ]

2 голосов
/ 10 марта 2020

Что хранить в HDFS и что хранить в GCS - это вопрос с учетом регистра. Datapro c поддерживает выполнение с oop или искровыми заданиями в GCS с разъемом GCS , что делает облачное хранилище HDFS совместимым без потери производительности.

Соединитель облачного хранилища по умолчанию установлен на всех узлах кластера Datapro c и доступен как в средах Spark, так и в PySpark.

0 голосов
/ 11 марта 2020

После небольшого исследования: производительность HDFS и облачного хранилища (или любого другого магазина блогов) не полностью эквивалентна. Например, операция «mv» в хранилище BLOB-объектов эмулируется как copy + delete.

Что ASF может сделать, так это предупредить, что наши собственные файловые системы BlobStore (в настоящее время s3 :, s3n: и swift :) не являются полной заменой hdfs :, поскольку такие операции, как rename (), эмулируются только путем копирования, а затем удаления всех операций, и поэтому переименование каталога не выполняется атомарно c - требование файловых систем POSIX, от которых в настоящее время зависят некоторые приложения (MapReduce) вкл.

Источник: https://cwiki.apache.org/confluence/display/HADOOP2/HCFS

...