Минус запросы между HDFS и CASSANDRA с 70 миллионами записей занимают около 40 минут - PullRequest
0 голосов
/ 09 июня 2018

Мой файл партера HDFS и таблица Cassandra содержат 70 миллионов строк, 16 столбцов и 14 столбцов в Json с длиной более 2000.

Я выполняю исходный код минус цель и целевой минус источник.Затем рассчитывается количество каждого кадра данных HDFS и Cassandra.Все это заняло у меня 40 минут.

Работа на пряже с объемом 6 ТБ, имеющим 20 узлов данных и 1640 ядер.

Даже если я меняю число исполнителей на 100 и количество ядердо 4 производительность не улучшается.Пожалуйста, дайте мне знать, если это максимальная эффективность, которую мы можем достичь.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...