В настоящее время я занимаюсь исследованием выявления заболеваний сердца и хочу использовать искру для обработки больших данных, поскольку это является частью решения моей работы. Но я испытываю трудности в использовании искры с питоном, потому что я не могу понять, как использовать искру. Преобразование CSV-файла в RDD, а затем я не понимаю, как работать с RDD для реализации алгоритмов классификации, таких как Knn, логистическая регрессия и т. Д. Поэтому я был бы очень признателен, если кто-нибудь может мне помочь в любом случае.
Я пытался понять pyspark в Интернете, но очень мало доступных кодов, а некоторые из них слишком просты или слишком сложны для понимания. Я не могу найти подходящий пример классификации на pyspark.