Изменение имен вложенных столбцов с помощью SparklyR в R - PullRequest
0 голосов
/ 10 сентября 2018

Я сослался на все ссылки, упомянутые здесь:

1) Link-1 2) Link-2 3) Link-3 4) Link-4

Следующий код R был написан с использованием пакета Sparklyr.Он читает огромный файл JSON и создает схему базы данных.

sc <- spark_connect(master = "local", config = conf, version = '2.2.0') # Connection
sample_tbl <- spark_read_json(sc,name="example",path="example.json", header = TRUE, 
                              memory = FALSE, overwrite = TRUE) # reads JSON file
sample_tbl <- sdf_schema_viewer(sample_tbl) # to create db schema
df <- tbl(sc,"example") # to create lookup table

Он создал следующую схему базы данных

Database Schema

Сейчас,

Если я переименую столбец первого уровня, он будет работать.

Например,

df %>% rename(ent = entities)

Но когда я запускаю вложенный столбец 2-го уровня, он не переименовывается.

df %>% rename(e_hashtags = entities.hashtags)

Отображается ошибка:

Error in .f(.x[[i]], ...) : object 'entities.hashtags' not found

Вопрос

Мой вопрос: как переименовать вложенный столбец с 3-го по 4-й уровень?

Пожалуйста, обратитесь к схеме базы данных, упомянутой выше.

1 Ответ

0 голосов
/ 10 сентября 2018

Spark как таковая не поддерживает переименование отдельных вложенных полей. Вы должны либо создать, либо перестроить целую структуру. Для простоты предположим, что данные выглядят следующим образом:

cat('{"contributors": "foo", "coordinates": "bar", "entities": {"hashtags": ["foo", "bar"], "media": "missing"}}',  file = "/tmp/example.json")
df <- spark_read_json(sc, "df", "/tmp/example.json", overwrite=TRUE)

df %>% spark_dataframe() %>% invoke("schema") %>% invoke("treeString") %>% cat()
root
 |-- contributors: string (nullable = true)
 |-- coordinates: string (nullable = true)
 |-- entities: struct (nullable = true)
 |    |-- hashtags: array (nullable = true)
 |    |    |-- element: string (containsNull = true)
 |    |-- media: string (nullable = true)

с простым строковым представлением:

df %>% 
  spark_dataframe() %>% 
  invoke("schema") %>% 
  invoke("simpleString") %>% 
  cat(sep = "\n")
struct<contributors:string,coordinates:string,entities:struct<hashtags:array<string>,media:string>>

С помощью cast вы должны определить выражение, используя описание соответствующего типа:

expr_cast <- invoke_static(
  sc, "org.apache.spark.sql.functions", "expr",
  "CAST(entities AS struct<e_hashtags:array<string>,media:string>)"
)

df_cast <- df %>% 
  spark_dataframe() %>% 
  invoke("withColumn", "entities", expr_cast) %>% 
  sdf_register()

df_cast %>% spark_dataframe() %>% invoke("schema") %>% invoke("treeString") %>% cat()
root
 |-- contributors: string (nullable = true)
 |-- coordinates: string (nullable = true)
 |-- entities: struct (nullable = true)
 |    |-- e_hashtags: array (nullable = true)
 |    |    |-- element: string (containsNull = true)
 |    |-- media: string (nullable = true)

Чтобы перестроить структуру, вы должны сопоставить все компоненты:

expr_struct <- invoke_static(
  sc, "org.apache.spark.sql.functions", "expr",
  "struct(entities.hashtags AS e_hashtags, entities.media)"
)

df_struct <- df %>% 
  spark_dataframe() %>% 
  invoke("withColumn", "entities", expr_struct) %>% 
  sdf_register()

df_struct %>% spark_dataframe() %>% invoke("schema") %>% invoke("treeString") %>% cat()
root
 |-- contributors: string (nullable = true)
 |-- coordinates: string (nullable = true)
 |-- entities: struct (nullable = false)
 |    |-- e_hashtags: array (nullable = true)
 |    |    |-- element: string (containsNull = true)
 |    |-- media: string (nullable = true)
...