При попытке использовать не устаревший набор данных из пакета pyarrow (версия 0.17.1) я получаю ошибку OSError: HDFS connection failed
при подключении к hdfs
. Однако, когда я использую устаревший, я могу установить sh соединение без каких-либо проблем.
то есть работает как показано ниже:
filesystem = pa.hdfs.connect(host = 'host_name', kerb_ticket = path_to_kerb_ticket_cache, port = 0)
но это работает не:
filesystem = pa.fs.HadoopFileSystem(host = 'host_name', kerb_ticket = path_to_kerb_ticket_cache, port = 0)
Более того, если я сначала создаю соединение, используя устаревший способ, а затем пытаюсь подключиться другим способом, все работает:
filesystem = pa.hdfs.connect(host = 'host_name', kerb_ticket = path_to_kerb_ticket_cache, port = 0)
filesystem = pa.fs.HadoopFileSystem(host = 'host_name', kerb_ticket = path_to_kerb_ticket_cache, port = 0)
Есть идеи, как правильно использовать pa.fs.HadoopFileSystem?