Я использую PySpark Pipeline
для создания некоторых функций.
pipeline=Pipeline(stages=[token_q1,token_q2,remover_q1,remover_q2,
transformer_textlength_q1,transformer_textlength_q2,transformer_totalwords,
transformer_commonwords,transformer_difftwolength,
transformer_fuzz_qratio,transformer_fuzz_partial_token_setratio,
transformer_fuzz_partial_token_sortratio,transformer_fuzz_token_setratio,
transformer_fuzz_token_sortratio,transformer_fuzz_partialratio,transformer_fuzz_wratio,
q1w2model,q2w2model,
transformer_manhattan, transformer_braycurtis, transformer_canberra,
transformer_cosine,transformer_euclidean,
transformer_jaccard,transformer_minkowski,transformer_kurtosis_q1,
transformer_kurtosis_q2,transformer_skew_q1,transformer_skew_q2,
assembler,lr])
lr
- логистическая регрессия, которая является последним шагом в вышеупомянутом конвейере. Когда я не использую это, я получаю правильные преобразования, используя pipeline.transform(train)
. Ошибка
pyspark.sql.utils.IllegalArgumentException: ваше требование не выполнено: значение init должно <= bound '. </p>