java .io.NotSerializableException: org. apache .spark. sql .Column, когда я создал новый столбец, используя условие с UDF - PullRequest
0 голосов
/ 12 февраля 2020

Я создал фрейм данных на основе текстовой сводки, чтобы найти частоту документов (DF) и частоту обратных документов (IDF).

the data frame with cleaned corpus with token extracted from it and a doc id

Вот столбцы с частотой документа и токенами слова -

doc frequency with word tokens

Однако, когда я пытаюсь вычислить IDF для каждой строки в кадре данных, используя пользовательскую функцию, я получаю упомянутую ошибку.

exception

Вот код для udf (который перебирает каждую строку) и функция (которая рассчитывает IDF)

user-defined fucntion

function to calculate idf

1 Ответ

0 голосов
/ 13 февраля 2020

Возможно, вам не нужно писать функцию для вычисления IDF самостоятельно, поскольку она уже реализована в spark-mllib, см .:

https://spark.apache.org/docs/latest/mllib-feature-extraction.html#tf -idf

Кроме того, не видя, как определяется функция calcIDF, мы не можем оказать большую помощь по NotSerializableException.

...