Импортируйте файл CSV как набор данных PySpark (НЕ Фреймы данных) - PullRequest
0 голосов
/ 15 октября 2019

Как я могу импортировать файл CSV в PySpark как набор данных ? Обратите внимание, что я НЕ спрашиваю о том, как импортировать их в фреймы данных .

При чтении этой страницы из блоков данных я узнал о некоторых преимуществах наборов данных над фреймами данных.

https://databricks.com/blog/2016/07/14/a-tale-of-three-apache-spark-apis-rdds-dataframes-and-datasets.html

Я хочу научиться работать с ними вместо RDD и фреймов данных.

1 Ответ

3 голосов
/ 15 октября 2019

Связанное с сообщение в блоге дает вам ответ, что это невозможно из-за python:

Примечание. Поскольку Python и R не имеют безопасности типов во время компиляции,у нас есть только нетипизированные API, а именно DataFrames.

...