У меня есть фрейм данных, который содержит данные ниже, столбец test_data содержит тип данных WrappedArray[WrappedArray[String]]
.
+----------+-------+--------+--------+-------------------+--------------------+--------------------+
|LOT_NUMBER|MACHINE|FACILITY|LOT_TYPE| REC_DATE| FILE_NAME| TEST_DATA|
+----------+-------+--------+--------+-------------------+--------------------+--------------------+
| ZJ8281U6| GIMS01| BE6| SN|2019-01-22 00:28:57|201807182036_HJ82...|[[0.001E+00,1..|
+----------+-------+--------+--------+-------------------+--------------------+--------------------+
Я тестировал запись в формате ORC & Parquet, orc намного медленнее, занимает 3 минуты, но Parquetна завершение требуется всего 3 секунды.
df.write.mode(SaveMode.Append).format("orc").save("/tmp/datalog/")
df.write.mode(SaveMode.Append).format("parquet").save("/tmp/datalog/")
В большой части статьи говорится, что у орка производительность выше, чем у паркета, но я понятия не имею, что на написание уходит так много времени.Любой эксперт знает, что идет не так?Или какой-нибудь совет для меня?