Как создать DataFrame из текстового файла в PySpark? - PullRequest
0 голосов
/ 11 июля 2019

Я новичок в pyspark и хочу преобразовать txt-файл в Dataframe в Pyspark.Я пытаюсь привести в порядок данные в pyspark.Любая помощь?Спасибо

Я уже пытался преобразовать его как RDD, а затем в датафрейм, но у меня это не работает, поэтому я решил преобразовать его один раз в кадр данных из текстового файла

Я пытался с этим, но это еще не сработало.

 # read input text file to RDD
  lines = sc.textFile("/home/h110-3/workspace/spark/weather01.txt")

  # collect the RDD to a list
  llist = lines.collect()

  # print the list
  for line in llist:
    print(line)

Я не смог преобразовать его в Dataframe.Помогите пожалуйста

1 Ответ

0 голосов
/ 11 июля 2019

Вы можете через text ридер ... пример здесь:

! cat sample.txt
hello there
loading line by line
via apache spark
text df api
print(spark.version)
df = spark.read.text("sample.txt")
df.printSchema()
df.show()
df.selectExpr("split(value, ' ') as rows").show(3, False)

2.4.3
root
 |-- value: string (nullable = true)

+--------------------+
|               value|
+--------------------+
|         hello there|
|loading line by line|
|    via apache spark|
|         text df api|
+--------------------+
+-------------------------+
|rows                     |
+-------------------------+
|[hello, there]           |
|[loading, line, by, line]|
|[via, apache, spark]     |
+-------------------------+
...