pyarrow: не устаревшая файловая система не может подключиться, хотя устаревшая может - PullRequest
0 голосов
/ 27 мая 2020

При попытке использовать не устаревший набор данных из пакета pyarrow (версия 0.17.1) я получаю ошибку OSError: HDFS connection failed при подключении к hdfs. Однако, когда я использую устаревший, я могу установить sh соединение без каких-либо проблем.

то есть работает как показано ниже:

filesystem = pa.hdfs.connect(host = 'host_name', kerb_ticket = path_to_kerb_ticket_cache, port = 0)

но это работает не:

filesystem = pa.fs.HadoopFileSystem(host = 'host_name', kerb_ticket = path_to_kerb_ticket_cache, port = 0)

Более того, если я сначала создаю соединение, используя устаревший способ, а затем пытаюсь подключиться другим способом, все работает:

filesystem = pa.hdfs.connect(host = 'host_name', kerb_ticket = path_to_kerb_ticket_cache, port = 0)
filesystem = pa.fs.HadoopFileSystem(host = 'host_name', kerb_ticket = path_to_kerb_ticket_cache, port = 0)

Есть идеи, как правильно использовать pa.fs.HadoopFileSystem?

...