Ограничьте данные для искрового фрейма данных - PullRequest
1 голос
/ 18 октября 2019

Я читаю данные из базы данных NOSQL с использованием искрового фрейма данных. Поскольку существует ограничение на загрузку максимум 40 МБ данных в блоках данных, я ищу решение для ограничения данных. Я пытался использовать опции limit () или take (), но оба дают мне ошибку, так как они сначала читают целые данные, а потом ограничивают.

При чтении самого себя это выдает ошибку, есть ли в любом случае, мы можем ограничитьданные перед чтением всего набора данных? Мы отфильтровали данные и взяли только два столбца, но все же эти данные огромны.

ReadData = spark.read.format("com.mongodb.spark.sql.DefaultSource").option("uri",connectionstring).option("pipeline",pipeline).load().limit(2000)

1 Ответ

0 голосов
/ 18 октября 2019

Я не уверен в намерении прочитать небольшую часть данных. Одним из вариантов может быть попытка применить фильтр, который может быть перенесен в БД и может привести к меньшему количеству записей.

...