Question

Вот пример того кадра данных, который у меня есть. Кстати, этот вопрос задают некоторые компании в качестве загадки для проверки понимания структур данных Spark. Поэтому вместо того, чтобы предлагать идеальные способы избежать этой проблемы, лучше придумать идеи, чтобы сделать это наиболее эффективно.

val full_csv = sc.parallelize(Array(
  "col_1, col_2, col_3",
  "1, ABDFGHC, XYZ",
  "2, ADASDFA, LOM",
  "3, WERWRE, BCT"))

Psidom · Answer 1 · 01 декабря 2019

У вас есть СДР, а не DataFrame;С учетом сказанного, если вы знаете имя 1-го столбца, вы можете использовать filter, чтобы удалить первый ряд:

full_csv.filter(s => !s.startsWith("col_1")).collect
// res11: Array[String] = Array(1, ABDFGHC, XYZ, 2, ADASDFA, LOM, 3, WERWRE, BCT)

Как наиболее эффективно удалить заголовок ряда свечей RDD?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как наиболее эффективно удалить заголовок ряда свечей RDD?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов