spark-sql 1.3 пишет паркет намного быстрее чем spark-sql 2.4 - PullRequest
0 голосов
/ 05 февраля 2019

Я пытаюсь перенести код из Spark 1.3 в Spark 2.4.

Код написан на Java. Код записывает в паркет Dataframe of Row и занимает 4 минуты, чтобы закончить методом spark-sql 1.3:

createDataFrame (rddRow, sb.getStructType ()). saveAsParquetFile (s)

Но когда я попытался перенести код в эквивалентный код в spark-sql 2.4, метод:

createDataFrame (rddRow, sb.getStructType ()). Write (). Parquet (s);

Никогда не заканчивается.Я ждал 3 часа, и он создает папку tmp в том месте, где должен храниться файл паркета.

Временное имя файла выглядит как «попытка_20190205171717_0008_m_000000_0»

Я запустил свою программу в Eclipse, в Windows, на моей локальной машине.

Кто-нибудь знает, что происходит?.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...