Spark выдает ошибку при создании DataFrame - PullRequest
0 голосов
/ 11 сентября 2018

Я скачал spark версии 2.3.1 и hadoop version 2.7 и java jdk 8. Все отлично работает для простых упражнений, но когда я пытался создать dataframe.это начало, хотя ошибка.следующий код работает без ошибки.

import numpy as np

TOTAL = 1000000
dots = sc.parallelize([2.0 * np.random.random(2) - 1.0 for i in range(TOTAL)]).cache()
print("Number of random points:", dots.count())

stats = dots.stats()
print('Mean:', stats.mean())
print('stdev:', stats.stdev())

, но когда я попробовал следующий код, требуется, чтобы ввод изменился на фрейм данных

df = sc.parallelize([Row(name='ab',age=20), Row(name='ab',age=20)]).toDF() 

, он выдает следующую ошибку enter image description here

1 Ответ

0 голосов
/ 15 сентября 2018

вы пропустили импорт для строки.

from pyspark.sql import Row
df = sc.parallelize([Row(name='ab',age=20), Row(name='ab',age=20)]).toDF() 
df.show()

Результат:

+---+----+
|age|name|
+---+----+
| 20|  ab|
| 20|  ab|
+---+----+
...