Question

У меня есть таблица улья, которая разделена на многие страны.Я хочу загрузить данные конкретного раздела в мой фрейм данных, как показано ниже:

df=spark.read.orc("/apps/hive/warehouse/emp.db/partition_load_table").where('country="NCL"' && 'county="RUS"')

Это дает мне ошибку, хотя я смог загрузить один раздел.

ниже мой каталогструктура в формате hdf

1007 */apps/hive/warehouse/emp.db/partition_load_table/country=NCL

df=spark.read.orc("/apps/hive/warehouse/emp.db/partition_load_table").where('country="NCL"')

Tim · Answer 1 · 09 октября 2018

Не уверен, почему вы не просто запросите таблицу улья напрямую, используя HQLContext:

spark.sql("select * from partition_load_table where country in ('NCL', 'RUS')")

Если по какой-либо причине это недоступно, вы можете объединить базовые разделы улья.Сначала прочитайте их как отдельные кадры данных и объединение.Что-то вроде:

rus = spark.read.orc("/apps/hive/warehouse/emp.db/partition_load_table/country=rus") ncl = spark.read.orc("/apps/hive/warehouse/emp.db/partition_load_table/country=ncl") df = rus.union(ncl)

Фильтрация таблицы разделов Hive в pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Фильтрация таблицы разделов Hive в pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов