Я давно использую Spark Scala, новичок в PySpark.
Я пытаюсь настроить PyCharm для проекта Spark. Все настроено с точки зрения зависимостей (например, pip install spark). Я могу создать новый файл python и написать искровой код, все решено. Вот фрагмент кода:
from pyspark.sql import SparkSession
spark=SparkSession.builder.enableHiveSupport.getOrCreate()
data = spark.sql ('select * from db.tbl')
В этот момент я должен ожидать, что данные будут DataFrame? Когда я печатаю данные. Я ожидаю, что PyCharm сообщит мне возможные методы, такие как filter, join et c, в качестве раскрывающегося списка, но это не так.
Что еще нужно сделать, чтобы это работало? Я использую python 2.7 (должен, поскольку это то, что поддерживает наш кластер oop)