Как преобразовать CSV в RDD и использовать RDD в Pyspark для обнаружения? - PullRequest
0 голосов
/ 10 ноября 2019

В настоящее время я занимаюсь исследованием выявления заболеваний сердца и хочу использовать искру для обработки больших данных, поскольку это является частью решения моей работы. Но я испытываю трудности в использовании искры с питоном, потому что я не могу понять, как использовать искру. Преобразование CSV-файла в RDD, а затем я не понимаю, как работать с RDD для реализации алгоритмов классификации, таких как Knn, логистическая регрессия и т. Д. Поэтому я был бы очень признателен, если кто-нибудь может мне помочь в любом случае.

Я пытался понять pyspark в Интернете, но очень мало доступных кодов, а некоторые из них слишком просты или слишком сложны для понимания. Я не могу найти подходящий пример классификации на pyspark.

1 Ответ

0 голосов
/ 10 ноября 2019

Чтобы прочитать csv в фрейм данных, вы можете просто вызвать spark.read.option('header', 'true').csv('path/to/csv').

Фрейм данных будет содержать столбцы и строки вашего csv, и вы можете преобразовать его в RDD строк с помощью df.rdd.

...