Я конвертирую программу sas в python, одна из таких операций - объединение двух таблиц, одна из таблиц состоит из 25 столбцов, а другая имеет 2 столбца. Sas объединяет это без каких-либо проблем, когда объединение pyspark должно иметь одинаковое количество столбцов? как подойти к этой проблеме: полное соединение дает разное количество записей
Table 1:
df.printSchema()
|-- Port1: string (nullable = true)
|-- Port12: string (nullable = true)
|-- Col1: string (nullable = true)
|-- Col2: string (nullable = true)
|-- Col3: string (nullable = true)
|-- Col4: string (nullable = true)
|-- Col5: string (nullable = true)
|-- Col6: string (nullable = true)
|-- Col7: string (nullable = true)
|-- Col8: string (nullable = true)
|-- Col9: string (nullable = true)
|-- Col10: double (nullable = true)
|-- Col11: string (nullable = true)
|-- Col12: string (nullable = true)
|-- Col13: double (nullable = true)
|-- Col14: double (nullable = true)
|-- Col15: double (nullable = true)
|-- Col16: double (nullable = true)
|-- Col7: double (nullable = true)
|-- Col18: double (nullable = true)
|-- Col19: string (nullable = true)
|-- Col20: string (nullable = true)
|-- Col21: double (nullable = true)
|-- Col22: integer (nullable = true)
|-- Col23: string (nullable = true)
Table 2 :
df2.printSchema()
root
|-- Port1: string (nullable = true)
|-- Port2: string (nullable = true)