Как наиболее эффективно удалить заголовок ряда свечей RDD? - PullRequest
0 голосов
/ 01 декабря 2019

Вот пример того кадра данных, который у меня есть. Кстати, этот вопрос задают некоторые компании в качестве загадки для проверки понимания структур данных Spark. Поэтому вместо того, чтобы предлагать идеальные способы избежать этой проблемы, лучше придумать идеи, чтобы сделать это наиболее эффективно.

val full_csv = sc.parallelize(Array(
  "col_1, col_2, col_3",
  "1, ABDFGHC, XYZ",
  "2, ADASDFA, LOM",
  "3, WERWRE, BCT"))

1 Ответ

0 голосов
/ 01 декабря 2019

У вас есть СДР, а не DataFrame;С учетом сказанного, если вы знаете имя 1-го столбца, вы можете использовать filter, чтобы удалить первый ряд:

full_csv.filter(s => !s.startsWith("col_1")).collect
// res11: Array[String] = Array(1, ABDFGHC, XYZ, 2, ADASDFA, LOM, 3, WERWRE, BCT)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...