Создание звездообразной схемы (размеры и таблица фактов) в Had oop Hive из одного файла csv - PullRequest
0 голосов
/ 11 июля 2020

Я совершенно новичок в Datawarehouse, OLAP и hive. У меня есть единственный файл csv, содержащий обучающие данные об онлайн-рынке, таком как ebay (см. Данные в столбце). Моя задача - создать звездную схему в улье (через Data Analytics Studio, Spark или что-то еще).

Я построил измерение следующим образом:

Факт и размеры

Как я могу создать эти таблицы измерений и особенно сгенерировать новый идентификатор для каждой строки? Мой SELECT New_Guid(), listing_title, listing_subtitle, listing_type_code, start_price, buy_it_now_price, buy_it_now_listed_flag, qty_available_per_listing From auctions, который я нашел в другом уроке. Но New_Guid() вообще не работает в моей Data Analytics Studio.

Большое спасибо!

1 Ответ

0 голосов
/ 12 июля 2020

Предполагая, что в размерах нет истории, и если оставить в стороне, хороший размерный дизайн или нет:

  1. Для каждого необходимого измерения:

    • прочтите CSV и извлекать соответствующие поля с применением отличных к temp_table
    • добавить порядковый номер к каждой строке, используя select (row_number() over()), Col1, Col2, col3, col4 from temp_table, и сохранять в Dimensist_table
  2. Для таблицы фактов:

    • прочитать csv и извлечь соответствующие поля с применением к temp_table
    • добавить порядковый номер в каждую строку, используя select (row_number() over()), Col1, Col2, col3, col4 from temp_table, и сохранить в другой temp_table_2
    • JOIN с соответствующими из temp_table_2 в измерения, ищущие / выбирающие порядковый номер, дающий temp_table_3
    • вставьте ключи только из temp_table_3 в fact_table
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...