Группа в Кассандре - PullRequest
0 голосов
/ 29 мая 2018

У меня есть таблица с 10 миллионами данных о продажах в магазинах в формате CSV, которая имеет следующие столбцы (идентификатор, дата, магазин, элемент, unit_sales).Я хочу знать, как должна быть создана таблица, какое поле поместить в ключ раздела или, если мне нужен ключ кластеризации в Кассандре, чтобы сделать следующий запрос:

select store, sum (unit_sales) from table group by store

Я пытаюсь создать модельтаблица в cassandra со следующей инструкцией в последней версии CQL в консоли:

CREATE TABLE sales (
    id int,
    date date,
    item_nbr int,
    store_nbr int,
    unit_sales decimal,
    PRIMARY KEY (store_nbr));

, но при переносе данных из моего csv в таблицу с помощью команды copy, поскольку данных много, не вседанные переносятсяЯ делаю счет, и они не все.также попытайтесь выполнить udf-функцию обострения, но выбор, который я вам говорю, занимает много времени.пожалуйста помогите

1 Ответ

0 голосов
/ 18 июня 2018

Это потому, что ваш первичный ключ, вы сделали store_nbr как PK, поэтому, если те же самые данные PK повторяются, это уничтожит ваши существующие данные.Поэтому, пожалуйста, добавьте любой другой ключ, чтобы идентифицировать 10M строк как уникальных, тогда вы можете увидеть 10M в своей таблице cassandra

...