Question

Я использую Azure Блоки данных с использованием PySpark для ноутбуков.

Ниже приведен пример текстового файла Orders.txt : -

Order1|Prod1|345|3|
Order1|Prod2|45|1|
Order1|Prod3|105|2|
Order2|Prod1|345|1|
Order2|Prod4|459|2|
Order2|Prod3|105|1|
FileName|6|

Мне нужно создать 2 RDD с помощью PySpark из приведенного ниже Пример файла.

1 СДР (он не должен содержать последний файл) 2 СДР (он должен содержать только последнюю строку)

asher · Answer 1 · 27 апреля 2020

Я думаю, вы можете применить фильтр для этого.

val skiplast = data.last
val rows = data.filter(line => line != skiplast)

val onlylast = data.last
val rows = data.filter(line = onlylast)

Я не могу проверить это, потому что у меня нет доступа к Scala сейчас (моя работа закончилась). Здесь вы также можете найти что-то полезное.

Создать RDD, пропустив последнюю строку в PySpark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.