Question

Как мне прочитать большую таблицу из hdfs в jupyter-notebook как pandas DataFrame? Сценарий запускается через docker image.

библиотеки:

sasl == 0.2.1
thrift == 0,11 .0
thrift-sasl == 0,4a1
Impyla == 0,16,2

from impala.dbapi import connect 
from impala.util import as_pandas

impala_conn = connect(host='hostname', port=21050,
auth_mechanism='GSSAPI', 
                      timeout=100000, use_ssl=True, ca_cert=None, 
                      ldap_user=None, ldap_password=None, 
                      kerberos_service_name='impala')

Это работает.


import pandas as pd
df = pd.read_sql("select id, crt_mnemo from demo_db.stg_deals_opn LIMIT 100", impala_conn)
print(df)

Это не работает. Операция зависает, ошибок не выдает.


import pandas as pd
df = pd.read_sql("select id, crt_mnemo from demo_db.stg_deals_opn LIMIT 1000", impala_conn)
print(df)

Python - невозможно прочитать большой файл

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Python - невозможно прочитать большой файл

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы