У меня есть датафрейм с 2 столбцами, и я хочу разделить его на два массива. Я знаю, что с Python 2 я мог бы использовать это:
result = spark.sql("SELECT acoustic_data, time_to_failure from df order by acoustic_data asc")
result_rdd = result.rdd.sample(False, 0.0001).map(lambda row: (row.acoustic_data, row.time_to_failure))
result_signal = result_rdd.filter(lambda (acoustic_data, time_to_failure): acoustic_data).collect()
И то же самое с другими столбцами.
Но если я попытаюсь сделать это сейчас, я получу эту ошибку:
TypeError: () отсутствует 1 обязательный позиционный аргумент:
'Time_to_failure'
result_rdd возвращает это:
Так что я хочу взять из него 2 массива.
Привет