Мой файл партера HDFS и таблица Cassandra содержат 70 миллионов строк, 16 столбцов и 14 столбцов в Json с длиной более 2000.
Я выполняю исходный код минус цель и целевой минус источник.Затем рассчитывается количество каждого кадра данных HDFS и Cassandra.Все это заняло у меня 40 минут.
Работа на пряже с объемом 6 ТБ, имеющим 20 узлов данных и 1640 ядер.
Даже если я меняю число исполнителей на 100 и количество ядердо 4 производительность не улучшается.Пожалуйста, дайте мне знать, если это максимальная эффективность, которую мы можем достичь.