Вот пример того кадра данных, который у меня есть. Кстати, этот вопрос задают некоторые компании в качестве загадки для проверки понимания структур данных Spark. Поэтому вместо того, чтобы предлагать идеальные способы избежать этой проблемы, лучше придумать идеи, чтобы сделать это наиболее эффективно.
val full_csv = sc.parallelize(Array(
"col_1, col_2, col_3",
"1, ABDFGHC, XYZ",
"2, ADASDFA, LOM",
"3, WERWRE, BCT"))