Я использую Snowflake для написания своих sql запросов. У нас есть огромная таблица с миллиардами записей, содержащих информацию о клиентах. Цель состоит в том, чтобы получить случайную выборку и использовать R для просмотра распределений. К сожалению, мы не можем использовать соединение JDBC / ODBC от RStudio к Базе данных. Это ограничение. Поэтому мне осталось извлечь экстракт из Snowflake и импортировать его в R.
Сложность в том, что у нас есть столбец с именем CUSTOMER SEGMENT , который имеет почти 24 уникальных значения. Цель состоит в том, чтобы получить образец, который представляет значительную долю от каждого сегмента. Я попытался следующий запрос:
SELECT DISTINCT *
FROM test sample(10)
, чтобы получить случайную выборку, где каждая строка имеет 10-процентную вероятность выбора. Но я не получаю выборку из каждого значения клиентского сегмента. Могу ли я узнать о любых командах sql, которые могут помочь в разбивке по сегментам клиентов. заранее спасибо.