Как я могу импортировать файл CSV в PySpark как набор данных ? Обратите внимание, что я НЕ спрашиваю о том, как импортировать их в фреймы данных .
При чтении этой страницы из блоков данных я узнал о некоторых преимуществах наборов данных над фреймами данных.
https://databricks.com/blog/2016/07/14/a-tale-of-three-apache-spark-apis-rdds-dataframes-and-datasets.html
Я хочу научиться работать с ними вместо RDD и фреймов данных.
Связанное с сообщение в блоге дает вам ответ, что это невозможно из-за python:
Примечание. Поскольку Python и R не имеют безопасности типов во время компиляции,у нас есть только нетипизированные API, а именно DataFrames.