input=sc.textFile("hdfs://host/user/data/file1.txt") ## it is RDD
Вы можете использовать это для преобразования rdd в DataFrame.Мы имеем «sc» как SparkContext .
toDF ()
input.toDF()
Для этого вы должны вывести схему и отобразить или разделить ее, используя '|Вместо.Вы можете импортировать HiveContext или использовать sqlContext, определенный как SQLContext.Используя sqlContext spark создаст DataFrame для указанного вами файла.
# import
from pyspark.sql import HiveContext
sqlContext = HiveContext(sc)
# Then, you can use the com.databricks.spark.csv.
df = sqlContext.read \
.format('com.databricks.spark.csv') \
.options(header='true', delimiter='|') \
.load('hdfs://host/user/data/file1.txt')
Второй подход (после преобразования в .csv) вы можете
df = sqlContext.read \
.format('com.databricks.spark.csv') \
.options(header='true', delimiter=',') \ # you can use a ',' here
.load('hdfs://host/user/data/file1.csv')
- format () : укажите формат, который вы хотите прочитать в файле.
- options () : Позволяет указать заголовок и вы можете указатьразделитель.
- load () : загрузка файла по указанному пути.
Для получения дополнительной информации см.