Создать таблицу из разъема Cassandra-Spark - PullRequest
0 голосов
/ 18 июня 2019

Я надеюсь сгенерировать таблицу с двумя столбцами (sku_id, seo) из Кассандры.

Я уже связал Cassandra со Spark и запросил некоторую информацию у Cassandra. Сам seo - это формат json с многоуровневыми значениями ключей. Например, Печать строк [0] ['seo'] имеет вид:

{
  "text": {"ee":"PRECISION-TWEEZERS", "ff":"PRECISION-TWEEZERS"},
  "title":{"ee":"PRECISION TWEEZERS", "ff":"PRECISION TWEEZERS"},
  "keyword":{"ee":"<p></p>","ff":"."},
  "description":{"ee":"","ff":"."}
}
from cassandra.query import dict_factory
import json

session = cluster.connect("host_ip_address")
session.row_factory = dict_factory
rows = session.execute("SELECT sku_id, seo FROM skus LIMIT 20")

# test1 = rows[0]['seo']
# y = json.loads(test1)
# print(y['text'])
# test2 = y['text']
# print(test2['ee'])

Ожидаемые результаты содержат два столбца, как показано ниже:

sku_id                   seo(seo only contains seo['text']['ee'])

12345                    PRECISION-TWEEZERS

12312                    PRECISION-TWEEZERS

12312                    PRECISION-TWEEZERS

и сохраните его как файл csv

Пожалуйста, дайте мне знать, если что-то здесь неясно. Заранее спасибо

...