ORC, как AVRO и PARQUET, - формат, специально разработанный для массового хранения.Вы можете думать о них "как CSV", все они - файлы, содержащие данные, с их определенной структурой (отличной от CSV или JSON, конечно!).
Использование pyspark
должно быть простым чтение файла орка , как только ваша среда предоставит поддержку Hive.Отвечая на ваш вопрос, я не уверен, что в локальной среде без Hive вы сможете прочитать его, я никогда не делал этого (вы можете выполнить быстрый тест с помощью следующего кода):
Загружает файлы ORC, возвращая результат в виде DataFrame.
Примечание. В настоящее время поддержка ORC доступна только вместе с поддержкой Hive.
>>> df = spark.read.orc ('python / test_support / sql / orc_partitioned ')
Hive - это система хранилища данных, которая позволяет запрашивать данные в HDFS (распределенная файловая система) через Map-Reduce, как в традиционной реляционной базе данных (созданиеЗапросы, подобные SQL, не поддерживают на 100% все стандартные функции SQL!).
Редактировать : Попробуйте следующее для создания нового сеанса Spark.Не хамить, но я предлагаю вам следовать одному из многих руководств PySpark, чтобы понять основы этого "мира".Все будет намного понятнее.
import findspark
findspark.init()
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('Test').getOrCreate()