создать фрейм данных из словаря с помощью RDD в pyspark - PullRequest
0 голосов
/ 25 февраля 2019

У меня есть словарь с именем «Word_Count», ключ - это слово, а значения - числовое слово в тексте.Моя цель состоит в том, чтобы преобразовать его в фрейм данных с двумя столбцами слов и считать

items = list(Word_Counts.items())[:5]
items

output:

[('Akdeniz’in', 14), ('en', 13287), ('büyük', 3168), ('deniz', 1276), ('festivali:', 6)]

Когда я использовал sc.parallelize для установки RDD, я понял, что этоотбросьте все значения и в результате при создании таблицы останутся только ключи, она содержит только ключи.Пожалуйста, дайте мне знать, как установить фрейм данных из словаря, используя вывод RDD

rdd1 = sc.parallelize(Word_Counts)
Df_Hur = spark.read.json(rdd1)
rdd1.take(5)

:

['Akdeniz’in', 'en', 'büyük', 'deniz', 'festivali:']

Df_Hur.show(5)

output:

+---------------+ 
|_corrupt_record|
+---------------+ 
| Akdeniz’in|
| en| 
| büyük| 
| deniz| 
| festivali:| 
+---------------+

Моя цель:

   word       count
  Akdeniz’in    14
  en            13287
  büyük         3168
  deniz         1276
  festivali:    6

1 Ответ

0 голосов
/ 25 февраля 2019

Вы можете кормить word_count.items() напрямую parallelize:

df_hur = sc.parallelize(word_count.items()).toDF(['word', 'count'])

df_hur.show()

>>>
+----------+-----+
|      word|count|
+----------+-----+
|Akdeniz’in|   14|
|        en|13287|
|     büyük| 3168|
|     deniz| 1276|
|festivali:|    6|
+----------+-----+
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...