Обход вложенной структуры в Spark - PullRequest
0 голосов
/ 28 ноября 2018

Как искра разрешает эталон поля во вложенной структуре данных.Например;Ниже приведена схема для файла паркета.Формат схемы данных

root | --- id --- name --- address | ---street-name ---city ---state ---country ---hiredate ---designation

Чтобы запросить поле страны, я мог бы использовать следующий код в spark (scala).Данные хранятся в файле паркета.Вариант использования (запрос) состоит в том, чтобы выбрать всех сотрудников, которые не из страны = "Сомали"

Используя искра, я могу добиться этого как

  val df = spark.read.parquet("filepath")
  df.filter("address.country <> 'Somalia'").show()

Как искра разрешает""(точка), чтобы быть разделителем между дочерним элементом и родительским элементом во вложенной структуре и получать результаты.Я ищу часть в исходном коде искры, которая выполняет задачу ?.Ценю любую помощь.

В настоящее время я пытаюсь использовать ту же функциональность в задании mapreduce, чтобы получить поле, но мне нужно будет пересечь структуру.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...