ORC пишет намного медленнее, чем Parquet в Spark SQL - PullRequest
0 голосов
/ 20 января 2019

У меня есть фрейм данных, который содержит данные ниже, столбец test_data содержит тип данных WrappedArray[WrappedArray[String]].

+----------+-------+--------+--------+-------------------+--------------------+--------------------+
|LOT_NUMBER|MACHINE|FACILITY|LOT_TYPE|           REC_DATE|           FILE_NAME|           TEST_DATA|
+----------+-------+--------+--------+-------------------+--------------------+--------------------+
|  ZJ8281U6| GIMS01|   BE6|      SN|2019-01-22 00:28:57|201807182036_HJ82...|[[0.001E+00,1..|
+----------+-------+--------+--------+-------------------+--------------------+--------------------+

Я тестировал запись в формате ORC & Parquet, orc намного медленнее, занимает 3 минуты, но Parquetна завершение требуется всего 3 секунды.

df.write.mode(SaveMode.Append).format("orc").save("/tmp/datalog/")
df.write.mode(SaveMode.Append).format("parquet").save("/tmp/datalog/")

В большой части статьи говорится, что у орка производительность выше, чем у паркета, но я понятия не имею, что на написание уходит так много времени.Любой эксперт знает, что идет не так?Или какой-нибудь совет для меня?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...