Как сказал Венки, вам нужно сначала присоединиться, чтобы сравнить соответствующие строки вместе.У вас есть колонка для этого?A date ir id сделают свое дело.Предположим, у вас есть один файл с именем join_col в обоих фреймах данных :
from pyspark.sql.functions import *
stream_final = stream1.join(stream2, 'join_col', 'inner')
# Now compute difference by adding a new column 'offset_diff':
stream_final = stream_final.withColumn('offset_diff', stream_final.offset_v1 - stream_final.offset_v2)
Если вы не можете найти правильное соединение, это проблема для случаев, когда высравните столбцы разной длины, с которыми, я полагаю, вы имеете дело.