Фильтрация набора данных улья на основе списка Python - PullRequest
0 голосов
/ 18 марта 2019

Я довольно новичок в улье и искре, но то, что я хочу сделать, кажется, что это должно быть просто. По сути, я хочу взять список из Python, а затем только извлекать записи из улья, которые имеют ключ в этом списке. Как это:

my_list=['a','b','c','d']
new_dataset = 
    spark.sql(
    select * 
    from hive_dataset 
    where variable_name in my_list)

Я бы даже справился с этим после оператора sql. Как это:

my_list=['a','b','c','d']
new_dataset = 
    spark.sql(
    select * 
    from hive_dataset)

new_dataset=new_dataset(new_dataset[variable_name] in my_list)

Я знаю, что это довольно общий вопрос, но как мне это сделать? Это вообще возможно?

1 Ответ

0 голосов
/ 25 марта 2019

Это должно работать -

my_list=['a','b','c','d']

your_filter  = ','.join(["'" +i + "'" for i in my_list])

new_dataset  = spark.sql("SELECT * FROM hive_dataset WHERE variable_name IN ({})".format(your_filter))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...