Question

Мой файл партера HDFS и таблица Cassandra содержат 70 миллионов строк, 16 столбцов и 14 столбцов в Json с длиной более 2000.

Я выполняю исходный код минус цель и целевой минус источник.Затем рассчитывается количество каждого кадра данных HDFS и Cassandra.Все это заняло у меня 40 минут.

Работа на пряже с объемом 6 ТБ, имеющим 20 узлов данных и 1640 ядер.

Даже если я меняю число исполнителей на 100 и количество ядердо 4 производительность не улучшается.Пожалуйста, дайте мне знать, если это максимальная эффективность, которую мы можем достичь.

Минус запросы между HDFS и CASSANDRA с 70 миллионами записей занимают около 40 минут

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Минус запросы между HDFS и CASSANDRA с 70 миллионами записей занимают около 40 минут

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов