У меня есть около 1500 файлов XML в HDFS, каждый из них составляет около 2-3 ГБ.Мне нужно написать скрипт Python для анализа файлов XML для выполнения MapReduce.Однако я сталкиваюсь с проблемой доступа к файлам в HDFS с использованием python.
Я попробовал следующий скрипт и получил ошибку.
from snakebite.client import Client
def connection():
hadoop_client = Client('HDFS_hostname', 'HDFS_port', use_trash=False)
for x in hadoop_client.ls(['/']):
print(x)
Ниже приведена ошибка:
Traceback (most recent call last):
File "/home/ubuntu/PycharmProjects/textmining/read_data_from_HDFS.py", line 5, in <module>
from snakebite.client import Client
File "/usr/local/lib/python3.6/dist-packages/snakebite/client.py", line 1473
baseTime = min(time * (1L << retries), cap);
^
SyntaxError: invalid syntax
Каков наилучший рекомендуемый способ доступа к файлам из HDFS с использованием python?