Snowflake - это платформа облачного хранилища данных, где вы можете загружать данные как традиционное хранилище данных и писать SQL для исследования данных. Он также предоставляет расширение для загрузки данных и их обработки. Однако, в отличие от pandas и spark, он не подразумевает схему для разработчика.
Если вам действительно нравится выполнять эту операцию через снежинку, рекомендуется:
- Загрузить данные в корзину S3 и затем подготовить ее (вам необходимо понять процесс подготовки) ( ссылка )
- Вы также можете размещать данные с локального диска в виртуальном хранилище.
- Когда данные находятся в среде этапа, создайте виртуальное хранилище (VW). и затем создайте базу данных / таблицу согласно схеме ( ссылка )
- , и теперь вы можете писать запросы для исследования данных
- Однако, если вы хотите выполнить исследовательскую работу Что касается самих данных, вы можете просто использовать свой локальный компьютер и затем создать чистый набор данных в снежинке для курирования или дальнейшей обработки.
Надеюсь, что этот подход поможет вам уточнить, как использовать снежинку, а не путать с python или другими инструментами обработки данных.