Объедините очень большие таблицы улья (11, если быть точным), используя Spark - PullRequest
0 голосов
/ 07 октября 2018

Я в основном заменяю другого программиста.

Описание проблемы : существует 11 таблиц кустов, каждая из которых содержит от 8 до 11 столбцов.Все эти таблицы имеют около 5 столбцов, имена которых похожи, но содержат разные значения.

Например, Таблица A имеет столбцы mobile_no, date, duration, поэтому имеет Таблица B .Но ценности не одинаковы.другие столбцы имеют разные имена таблиц.

Во всех таблицах типами данных являются строковые, целые, двойные, т.е. простые типы данных.Строковые данные содержат максимум 100 символов.

Каждая таблица содержит около 50 миллионов данных.У меня есть требование объединить эти 11 таблиц, взяв их столбцы как есть, и создать одну большую таблицу.

Наш искровой кластер имеет 20 физических серверов, каждое из которых имеет 36 ядер (если количество виртуализаций равно 72), ОЗУ по 512 ГБ каждое.Spark версии 2.2.x

Я должен эффективно объединить их с памятью и скоростью.

Ребята, можете ли вы помочь мне с этой проблемой?

Примечание: пожалуйста, дайте мнея знаю, если у вас есть вопросы

...