Соответствие данных огромных таблиц в распределенной среде - PullRequest
0 голосов
/ 24 апреля 2019

У меня есть сценарий оболочки, который предоставляет входные данные, которые должны быть сопоставлены и подавлены n количеством огромных таблиц (размер таблицы варьируется от 20 миллионов до 150 миллионов записей).Одновременно может быть отправлено несколько заданий

Размер входных данных варьируется от 500 000 до 3 мм записей.Количество таблиц варьируется от 5 до 40. Огромные данные таблиц будут обновляться в режиме реального времени;Для соответствующего столбца будет создан индекс.

В настоящее время я выполняю эту задачу, используя Mysql на Linux Sever (процессор Intel (R) Xeon (R) E5-2637 v3 @ 3,50 ГГц и Ram 128 ГБ), что занимает много времени,Я предоставил скрипт оболочки, который принимает входной файл данных в качестве аргумента и обращается к базе данных, чтобы выполнить следующие запросы и вернуть чистые данные. Я ищу лучший подход к этой проблеме.

delete a from inputTableName a, table1 b where a.email=b.email;
delete a from inputTableName a, table2 b where a.email=b.email;
delete a from inputTableName a, table3 b where a.email=b.email;
delete a from inputTableName a, table4 b where a.email=b.email;
delete a from inputTableName a, table5 b where a.email=b.email;
delete a from inputTableName a, table6 b where a.email=b.email;

результат от 3 до 5 минут на работу.Хотел узнать, можно ли решить эту проблему с помощью распределенного подхода.Я открыт для использования любого языка или технологии.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...