Если вы пишете на Python, я бы либо использовал Spark sql, либо использовал функции объединения pysparks.
Для Spark SQL
1) Convert to a Apache Spark DataFrame using the toDF() function.
2) Make the Spark Data Frame Spark SQL Table using createOrReplaceTempView().
Then run sql and to what you posted above.
ИЛИ
Используйте PySpark
left_join = t1.join(t2, t1.col1 == t2.name,how='left')
left_join.filter(col('col1' > 0)) # Then filter afterwards
Будет ли это работать для вас?