У меня есть фрейм данных va
с двумя столбцами vertex1
и vertex2
.va
имеет
6731710209 rows
Я хочу вычислить сходство между vertex1
и vertex2
.Для этого у меня есть следующая функция UDF:
weight_udf = udf(edgeWeight, FloatType())
va = va.withColumn('similarity', weight_udf(va.vertex1, va.vertex2))
При выполнении кода я получаю следующую странную ошибку:
#
# A fatal error has been detected by the Java Runtime Environment:
#
# SIGSEGV (0xb) at pc=0x00002b5fe21d0ba0, pid=67441, tid=0x00002b605e421700
#
# JRE version: Java(TM) SE Runtime Environment (8.0_121-b13) (build 1.8.0_121-b13)
# Java VM: Java HotSpot(TM) 64-Bit Server VM (25.121-b13 mixed mode linux-amd64 compressed oops)
# Problematic frame:
# J 12180 C2 org.apache.spark.sql.execution.UnsafeFixedWidthAggregationMap$1.next()Z (60 bytes) @ 0x00002b5fe21d0ba0 [0x00002b5fe21d0ac0+0xe0]
#
# Core dump written. Default location: /project/6008168/moudi/job/core or core.67441
#
# An error report file with more information is saved as:
# /project/6008168/moudi/job/hs_err_pid67441.log
[thread 47692633986816 also had an error]
#
# If you would like to submit a bug report, please visit:
# http://bugreport.java.com/bugreport/crash.jsp
#
Aborted (core dumped)
Я не могу понять, в чем проблема.Может кто-нибудь помочь, пожалуйста?