Мы наблюдаем непостоянную производительность для файловых методов put / get в HDFS.
Мы загружаем файл (put) параллельно с 5 процессами.Среднее время составляет 2 секунды на файл, а средний размер файла составляет менее 10 КБ.но иногда это занимает больше 5 минут для файла 10 КБ.Мы убедились, что на узлах данных нет других операций ввода-вывода процесса.
У нас есть 2 узла данных Кластер.и узел Name совместно использует один из узлов данных.Сервер1: Узел имени, Узел данных1 Сервер2: Узел вторичного имени, Узел данных2
См. Ниже конфигурацию сервера.
Hadoop Version : 2.9.2
NameNode Handler Count: 10 -- Default
DataNode Handler Count: 10 -- Default
DataNode Maximum Number of Transfer Threads: 4096-- Default
Data Replication factor : 2
RAM/Swap : 64 GB / 128GB
CPU : 24 core
Disk : 300 * 16 SSD
Структура папки данных (все файлы были в формате gz)Всего 1,2 ТБ на каждом узле данных
/data/apps/date/channel1_date.csv.gz
/data/apps/date/channel2_date.csv.gz
..
..
/data/apps/date/channeln_date.csv.gz
Заранее спасибо.