У меня есть файл формата * sales.fea
, который я использую для обмена данными между python
и R.
В RI используйте следующую команду:
df = as.data.frame(feather::read_feather("sales.fea"))
В Python я использовал это:
df = feather.read_dataframe("sales.fea")
Каков самый быстрый / лучший способ загрузки данных из этого файла в память в экземпляр Spark, управляемый с pyspark
?
НадеюсьЯ не хочу использовать pandas для загрузки данных, потому что это segfaults для моего файла пера 19 ГБ, созданного из 45 ГБ CSV.
Я думаю, что Spark такой модный, и перо тоже, и я ожидаю более естественный способ, чемпроходит через неэффективные временные решения.