Как читать и записывать сжатый файл последовательности в спарк с использованием Python с любым поддерживаемым кодеком сжатия - PullRequest
0 голосов
/ 24 апреля 2018

Как читать и писать сжатые SequenceFile в Spark с использованием Python.

Я использую Spark 1.6 на CDH 5.12 Quickstart VM с Python 2.7

Найден пример, как показано ниже, но не работает.

rdd.saveAsSequenceFile(<path location>, Some(classOf[compressionCodecClass]))

sparkContext.sequenceFile(<path location>, classOf[<class name>], classOf[<compressionCodecClass >]);

Нужен рабочий код для проверки.

1 Ответ

0 голосов
/ 24 апреля 2018

Чтобы прочитать сжатый sequencefile в Pyspark, используйте следующий код:

`myRDD = sparkcontext.sequenceFile("FILE_PATH")`

В Hadoop мы можем найти различные поддерживаемые кодеки сжатия в файле core-site.xml.

Немногие из популярных:

org.apache.hadoop.io.compress.DefaultCodec
org.apache.hadoop.io.compress.GzipCodec
org.apache.hadoop.io.compress.BZip2Codec
org.apache.hadoop.io.compress.DeflateCodec
org.apache.hadoop.io.compress.SnappyCodec
org.apache.hadoop.io.compress.Lz4Codec

Чтобы написать Sequencefile с использованием любого из этих кодеков сжатия в Pyspark, используйте код, как показано ниже (для GzipCodec): MYrdd.saveAsSequenceFile("FILE_PATH","org.apache.hadoop.io.compress.GzipCodec")

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...