Поиск результатов в большом количестве структурированных данных журнала, хранящихся в хранилище объектов - PullRequest
0 голосов
/ 15 марта 2019

Я новичок в (большом) мире данных, у меня есть большой объем данных (данные журнала) размером в 100 с терабайт в формате таблицы, хранящейся в хранилище объектов в формате паркета.У меня есть список IP-адресов и связанных с ними сведений об этих IP-адресах в CSV format, хранящихся в том же хранилище объектов.

Я хочу показать их отношение в графическом формате.

Я хочу знатьЧто такое оптимизированный способ поиска данных, чтобы найти, есть ли какой-либо IP-адрес присутствует в фактических данных журнала из списка IP-адресов.

Я планирую объединить эти две детали в третьей таблице, хочучтобы узнать, является ли это хорошим способом пойти и создать третью большую таблицу со всеми данными из таблицы данных журнала, вставить новые столбцы и запросить результаты Откройте для любого предложения

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...