Cassandra / Spark Read Performance - PullRequest
0 голосов
/ 01 июня 2018

У нас есть рабочий процесс, в котором мы читаем данные из Cassandra и отправляем их в Oracle с помощью Spark (JDBC).У меня есть проблема, когда все данные за определенный день собирались в один раздел Cassandra.Раньше я считывал данные из одного раздела, а затем делал перераспределение для достижения параллелизма.Поэтому, читая все данные из таблицы с помощью Spark, мы использовали для получения производительности записи в oracle 4 млн. / Час.

Чтобы решить эту проблему, я разбил данные на более мелкие разделы с использованием контейнеров Cassandra на основе счетчиков.Даже тогда с небольшими разделами и без перераспределения мы по-прежнему получаем производительность около 3 миллионов в час.

Можете ли вы, ребята, помочь мне в этом.

...