У меня есть словарь с именем «Word_Count», ключ - это слово, а значения - числовое слово в тексте.Моя цель состоит в том, чтобы преобразовать его в фрейм данных с двумя столбцами слов и считать
items = list(Word_Counts.items())[:5]
items
output:
[('Akdeniz’in', 14), ('en', 13287), ('büyük', 3168), ('deniz', 1276), ('festivali:', 6)]
Когда я использовал sc.parallelize для установки RDD, я понял, что этоотбросьте все значения и в результате при создании таблицы останутся только ключи, она содержит только ключи.Пожалуйста, дайте мне знать, как установить фрейм данных из словаря, используя вывод RDD
rdd1 = sc.parallelize(Word_Counts)
Df_Hur = spark.read.json(rdd1)
rdd1.take(5)
:
['Akdeniz’in', 'en', 'büyük', 'deniz', 'festivali:']
Df_Hur.show(5)
output:
+---------------+
|_corrupt_record|
+---------------+
| Akdeniz’in|
| en|
| büyük|
| deniz|
| festivali:|
+---------------+
Моя цель:
word count
Akdeniz’in 14
en 13287
büyük 3168
deniz 1276
festivali: 6