HDFS: чтение данных из HDFS для анализа файлов XML в HDFS с использованием Python3 - PullRequest
0 голосов
/ 03 декабря 2018

У меня есть около 1500 файлов XML в HDFS, каждый из них составляет около 2-3 ГБ.Мне нужно написать скрипт Python для анализа файлов XML для выполнения MapReduce.Однако я сталкиваюсь с проблемой доступа к файлам в HDFS с использованием python.

Я попробовал следующий скрипт и получил ошибку.

from snakebite.client import Client
def connection():
hadoop_client = Client('HDFS_hostname', 'HDFS_port', use_trash=False)
for x in hadoop_client.ls(['/']):
    print(x)

Ниже приведена ошибка:

Traceback (most recent call last):
  File "/home/ubuntu/PycharmProjects/textmining/read_data_from_HDFS.py", line 5, in <module>
    from snakebite.client import Client
  File "/usr/local/lib/python3.6/dist-packages/snakebite/client.py", line 1473
    baseTime = min(time * (1L << retries), cap);
                            ^
SyntaxError: invalid syntax

Каков наилучший рекомендуемый способ доступа к файлам из HDFS с использованием python?

1 Ответ

0 голосов
/ 22 января 2019

я пришел в ту же проблему.укус змеи не совместим с python 3.xu может использовать его с python 2.

...