Я очень плохо знаком с scala и учусь работать с RDDS. У меня есть два файла CSV, которые имеют следующие заголовки и данные: csv1.txt:
id,"location", "zipcode"
1, "a", "12345"
2, "b", "67890"
3, "c" "54321"
csv2.txt:
"location_x", "location_y", trip_hrs
"a", "b", 1
"a", "c", 3
"b", "c", 2
"a", "b", 1
"c", "b", 2
В основном, данные CSV1 представляют собой отдельный набор местоположений и почтовые индексы, тогда как данные csv2 имеют продолжительность поездки между location_x и location_y. Общей информацией в этих двух наборах данных является location в csv1 и location_x в csv 2, даже если они имеют разные имена заголовков.
Я хотел бы создать две трети, одна из которых содержит данные из csv1, а другая из csv2. Затем я хотел бы присоединиться к этим двум местам и вернуть местоположение, почтовый индекс и сумму всех поездок из этого места, как показано ниже:
("a", "zipcode", 5)
("b", "zipcode", 2)
("c", "zipcode", 2)
Мне было интересно, может ли один из вас помочь мне с этим проблема. Спасибо.