Столбец, соответствующий Python и снежинке - PullRequest
0 голосов
/ 11 января 2020

У меня есть тонна файлов данных, некоторые с разными именами заголовков (ie Имя, Имя, Имя) и / или порядок столбцов (столбец 2 - это телефон на одном листе, а столбец 3 - на другом).

Я пытаюсь поместить все эти файлы в Snowflake, чтобы я мог запустить анализ и получать удовольствие от данных.

Есть ли сценарий Python, который будет читать файл (ы) и позволит ли мне сопоставить их с колонками в «Снежинке»?

1 Ответ

0 голосов
/ 11 января 2020

Snowflake - это платформа облачного хранилища данных, где вы можете загружать данные как традиционное хранилище данных и писать SQL для исследования данных. Он также предоставляет расширение для загрузки данных и их обработки. Однако, в отличие от pandas и spark, он не подразумевает схему для разработчика.

Если вам действительно нравится выполнять эту операцию через снежинку, рекомендуется:

  1. Загрузить данные в корзину S3 и затем подготовить ее (вам необходимо понять процесс подготовки) ( ссылка )
  2. Вы также можете размещать данные с локального диска в виртуальном хранилище.
  3. Когда данные находятся в среде этапа, создайте виртуальное хранилище (VW). и затем создайте базу данных / таблицу согласно схеме ( ссылка )
  4. , и теперь вы можете писать запросы для исследования данных
  5. Однако, если вы хотите выполнить исследовательскую работу Что касается самих данных, вы можете просто использовать свой локальный компьютер и затем создать чистый набор данных в снежинке для курирования или дальнейшей обработки.

Надеюсь, что этот подход поможет вам уточнить, как использовать снежинку, а не путать с python или другими инструментами обработки данных.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...