У нас есть плоские файлы (CSV) с> 200 000 000 строк, которые мы импортируем в звездообразную схему с 23 таблицами измерений.Самая большая таблица измерений имеет 3 миллиона строк.На данный момент мы запускаем процесс импорта на одном компьютере, и это занимает около 15 часов.Поскольку это слишком долго, мы хотим использовать что-то вроде 40 компьютеров для импорта.
Мой вопрос
Как мы можем эффективно использовать 40 компьютеров для импорта.Основное беспокойство заключается в том, что на репликацию таблиц измерений на все узлы будет затрачено много времени, поскольку они должны быть одинаковыми на всех узлах.Это может означать, что если мы будем использовать 1000 серверов для импорта в будущем, это может быть медленнее, чем использование одного, из-за обширной сетевой связи и координации между серверами.
У кого-нибудь есть предложения?
РЕДАКТИРОВАТЬ:
Ниже приведено упрощение файлов CSV:
"avalue";"anothervalue"
"bvalue";"evenanothervalue"
"avalue";"evenanothervalue"
"avalue";"evenanothervalue"
"bvalue";"evenanothervalue"
"avalue";"anothervalue"
После импорта таблицы выглядят следующим образом:
размерная таблица1
id name
1 "avalue"
2 "bvalue"
размерная таблица2
id name
1 "anothervalue"
2 "evenanothervalue"
таблица фактов
dimension_table1_ID dimension_table2_ID
1 1
2 2
1 2
1 2
2 2
1 1