Я пытаюсь подсчитать количество строк в pyspark.sql.dataframe.DataFrame
. Я делаю это с:
stack_sub_jdf2.count()
, которая выдает следующую ошибку:
Py4JJavaError: An error occurred while calling o2540.count.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 23 in stage 57.0 failed 4 times, most recent failure: Lost task 23.3 in stage 57.0 (TID 1703, dedwfprshd056.de.neustar.com, executor 151): java.lang.ClassCastException: org.apache.hadoop.io.Text cannot be cast to org.apache.hadoop.io.IntWritable
Фрейм данных выглядит так:
DataFrame[mid: string, maf_pid: string, true_email_pid: int, address_current_score_max: int, address_date_max: int, distance_min: double, n_did_min: bigint, n_ekeys_email_min: bigint, gender_code_max: int, is_telco_phone_cust_max: int, is_deceased_min: int, is_key_record_max: int, is_names_swapped_min: int, dob_quick_fill_min: int, dob_date_max: int, phone_date_max: int, first_name_in_email_max: int, last_name_in_email_max: int, middle_initial_in_email_max: int, is_default_zip9_max: int, confidence_score_max: int, label: int, strsplit_address_source_exploded_index1: vector, strsplit_email_source_exploded_index1: vector, address_current_code_max_index1: vector, ethnicity_max_index1: vector, er_matching_rule_max_index1: vector, age_bucket_max_index1: vector, email_verification_code_strings_index1: vector, dpc_index1: vector]
Что я должен сделать для устранения неполадок? Я предполагаю, что проблема в одном из столбцов в фрейме данных, и я экспериментировал с удалением столбцов без удачи. Например, я создал фрейм данных stack_sub_jdf3
с одной переменной:
stack_sub_jdf3.printSchema()
root
|-- address_date_max: integer (nullable = true)
Но я получаю тот же результат:
stack_sub_jdf3.count()
Py4JJavaError: An error occurred while calling o2824.count.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 4 in stage 69.0 failed 4 times, most recent failure: Lost task 4.3 in stage 69.0 (TID 1808, dedwdprshc028.de.neustar.com, executor 171): java.lang.ClassCastException: org.apache.hadoop.io.Text cannot be cast to org.apache.hadoop.io.IntWritable
Одна и та же ошибка возникает независимо от того, какой столбец выбран. Самое загадочное то, что я раньше без проблем запускал этот ноутбук.