Question

Я скачал spark версии 2.3.1 и hadoop version 2.7 и java jdk 8. Все отлично работает для простых упражнений, но когда я пытался создать dataframe.это начало, хотя ошибка.следующий код работает без ошибки.

import numpy as np

TOTAL = 1000000
dots = sc.parallelize([2.0 * np.random.random(2) - 1.0 for i in range(TOTAL)]).cache()
print("Number of random points:", dots.count())

stats = dots.stats()
print('Mean:', stats.mean())
print('stdev:', stats.stdev())

, но когда я попробовал следующий код, требуется, чтобы ввод изменился на фрейм данных

df = sc.parallelize([Row(name='ab',age=20), Row(name='ab',age=20)]).toDF()

, он выдает следующую ошибку

Karthick · Answer 1 · 15 сентября 2018

вы пропустили импорт для строки.

from pyspark.sql import Row
df = sc.parallelize([Row(name='ab',age=20), Row(name='ab',age=20)]).toDF() 
df.show()

Результат:

+---+----+
|age|name|
+---+----+
| 20|  ab|
| 20|  ab|
+---+----+

Spark выдает ошибку при создании DataFrame

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Spark выдает ошибку при создании DataFrame

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы