Python - невозможно прочитать большой файл - PullRequest
0 голосов
/ 02 марта 2020

Как мне прочитать большую таблицу из hdfs в jupyter-notebook как pandas DataFrame? Сценарий запускается через docker image.

библиотеки:

  • sasl == 0.2.1
  • thrift == 0,11 .0
  • thrift-sasl == 0,4a1
  • Impyla == 0,16,2
from impala.dbapi import connect 
from impala.util import as_pandas

impala_conn = connect(host='hostname', port=21050,
auth_mechanism='GSSAPI', 
                      timeout=100000, use_ssl=True, ca_cert=None, 
                      ldap_user=None, ldap_password=None, 
                      kerberos_service_name='impala')

Это работает.


import pandas as pd
df = pd.read_sql("select id, crt_mnemo from demo_db.stg_deals_opn LIMIT 100", impala_conn)
print(df)

Это не работает. Операция зависает, ошибок не выдает.


import pandas as pd
df = pd.read_sql("select id, crt_mnemo from demo_db.stg_deals_opn LIMIT 1000", impala_conn)
print(df)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...