При преобразовании spark df в pandas df с помощью функции pyarrow я получаю следующее предупреждение:
UserWarning: pyarrow.open_stream устарела, используйте
pyarrow.ipc.open_stream
Я использую версию Python 3.7 и Pyspark 2.4.3.
pyspark df размер 170000 строк и 40 столбцов
При преобразовании его в панд с помощью функции Pyarrow я получаю только 61585 строк и 40 столбцов в качестве вывода, несмотря на получение полных данных.
train_set.count()
170000
spark.conf.set("spark.sql.execution.arrow.enabled", "True")
result_pdf = train_set.select("*").toPandas()
> C:\anaconda\lib\site-packages\pyarrow\__init__.py:152: UserWarning:
> pyarrow.open_stream is deprecated, please use pyarrow.ipc.open_stream
> warnings.warn("pyarrow.open_stream is deprecated, please use "
result_pdf.shape
(61585, 40)
Ожидаемый:
result_pdf.shape
(170000,40)
Фактический:
result_pdf.shape
(61585,40)