Создать RDD, пропустив последнюю строку в PySpark - PullRequest
0 голосов
/ 29 марта 2020

Я использую Azure Блоки данных с использованием PySpark для ноутбуков.

Ниже приведен пример текстового файла Orders.txt : -

Order1|Prod1|345|3|
Order1|Prod2|45|1|
Order1|Prod3|105|2|
Order2|Prod1|345|1|
Order2|Prod4|459|2|
Order2|Prod3|105|1|
FileName|6|

Мне нужно создать 2 RDD с помощью PySpark из приведенного ниже Пример файла.

1 СДР (он не должен содержать последний файл) 2 СДР (он должен содержать только последнюю строку)

1 Ответ

0 голосов
/ 27 апреля 2020

Я думаю, вы можете применить фильтр для этого.

val skiplast = data.last
val rows = data.filter(line => line != skiplast)

val onlylast = data.last
val rows = data.filter(line = onlylast)

Я не могу проверить это, потому что у меня нет доступа к Scala сейчас (моя работа закончилась). Здесь вы также можете найти что-то полезное.

https://spark.apache.org/docs/2.2.1/sql-programming-guide.html

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...