Я создал два фрейма данных в pyspark из моей таблицы улья:
data1 = spark.sql("""
SELECT ID, MODEL_NUMBER, MODEL_YEAR ,COUNTRY_CODE
from MODEL_TABLE1 where COUNTRY_CODE in ('IND','CHN','USA','RUS','AUS')
""");
каждая страна имеет миллионы уникальных идентификаторов в буквенно-цифровом формате.
data2 = spark.sql("""
SELECT ID,MODEL_NUMBER, MODEL_YEAR, COUNTRY_CODE
from MODEL_TABLE2 where COUNTRY_CODE in ('IND','CHN')
""");
Я хочуобъедините оба этих фрейма данных, используя pyspark в столбце ID.
Как мы можем перераспределить наши данные, чтобы они равномерно распределялись по разделам.
Можно ли использовать ниже для восстановления моих данных?
newdf1 = data2.repartition(100, "ID")
newdf2 = data2.repartition(100, "ID")
Каков наилучший способ разбиения, чтобы объединение работало быстрее?