Улучшения многопоточной производительности Linux для открытия файлов () - PullRequest
3 голосов
/ 28 июля 2010

Я работаю над настройкой производительности на высокопроизводительном высокопроизводительном механизме данных, который в конечном итоге обслуживает конечных пользователей.В частности, делегированная мне часть вращается вокруг характеристики многопоточного ввода-вывода файлов и отображения памяти данных в локальный кеш.При написании тестовых приложений для изоляции временных столбов было выявлено несколько вопросов.Код был свернут для выполнения только вызова открытия системного файла (open(O_RDONLY)).Я надеюсь, что результат этого запроса поможет нам понять фундаментальные системные процессы низкого уровня, чтобы можно было понять полную прогнозирующую (или, по крайней мере, реляционную) временную модель.Предложения всегда приветствуются.Кажется, мы достигли временного барьера и хотели бы понять поведение и определить, можно ли его преодолеть.

Тестовая программа:

  1. Написана на C,скомпилирован с использованием компилятора gnu C, как указано ниже;
  2. записывается минимально для изоляции обнаруженных проблем в один системный файл «open ()»;
  3. настраивается для одновременного запуска запрошенного числаpthreads;
  4. загружает список из 1000 текстовых файлов размером ~ 8K;
  5. создает потоки (просто) без изменений атрибутов;
  6. каждый поток выполняет несколько последовательных файловopen () вызывает следующий доступный файл из заранее определенного списка файлов, пока список файлов не будет исчерпан таким образом, что один поток должен открыть все 1000 файлов, 2 потока теоретически должны открыть 500 файлов (пока не доказано) и т. д.);

Мы проводили тесты несколько раз, параметрически изменяя количество потоков, размеры файлов и наличие файлаs расположены на локальном или удаленном сервере.Возникло несколько вопросов.

Наблюдаемые результаты (открытие удаленных файлов):

  1. Время открытия файла выше с первого раза (как и ожидалось, из-за кэширования файла);
  2. Запуск тестового приложения с одним потоком для загрузки всех удаленных файлов занимает X секунд;
  3. Похоже, что запуск приложения с числом потоков от 1 до # доступных процессоров на машине приводит к увеличению временипропорциональны количеству процессоров (nX секунд).
  4. Запуск приложения с использованием счетчика потоков> #CPUs приводит к тому, что время выполнения выровняется примерно на то же значение, что и время, необходимое для запускас потоками #CPU (это случайный или систематический лимит, или что?).
  5. Запуск нескольких параллельных процессов (например, 25 одновременных экземпляров одного и того же тестового приложения) приводит к тому, что время становится приблизительно линейнымс числом процессов для выбранного количества потоков.
  6. Запуск приложения на разных серверах показывает аналогичные результаты

Наблюдаемые результаты (открытие файлов, находящихся локально):

  1. На несколько порядков быстрее (как и следовало ожидать);
  2. При увеличении числа потоков возникает НИЗКАЯ точка перегиба синхронизациипримерно 4-5 активных потоков, затем снова увеличивается до тех пор, пока число потоков не станет равным количеству ЦП, а затем снова выравнивается;
  3. Запуск нескольких параллельных процессов (один и тот же тест) приводит к тому, что время становится приблизительно линейным с числомпроцессов с постоянным числом потоков (тот же результат, что и выше # 5).

Кроме того, мы заметили, что локальные открытия занимают около 0,01 мс, а последовательные открытия сети в 100 раз медленнее при 1 мс.Открывая сетевые файлы, мы получаем линейное увеличение пропускной способности до 8 раз с 8 потоками, но 9+ потоков ничего не делают.Похоже, что открытые вызовы сети блокируются после более чем 8 одновременных запросов.То, что мы ожидали, было начальной задержкой, равной сетевой передаче туда и обратно, а затем приблизительно такой же пропускной способностью, что и локальной.Возможно, в локальных и удаленных системах выполняется дополнительная блокировка мьютекса, которая занимает в 100 раз больше времени.Возможно, существует какая-то внутренняя очередь удаленных вызовов, которая содержит только 8.

ОжидайтеРезультаты и вопросы, на которые нужно ответить либо тестом, либо ответами на форумах, подобных этому:

  1. Запуск нескольких потоков приведет к выполнению той же самой работы за более короткое время;
  2. Есть лиоптимальное количество потоков;
  3. Существует ли связь между количеством доступных потоков и процессоров?
  4. Существует ли какая-то другая систематическая причина, по которой наблюдается ограничение в 8-10 файлов?
  5. Как работает системный вызов open () в многопоточном процессе?
  6. Каждый поток получает свой временной интервал с переключением контекста;
  7. Блокирует ли вызов open () и ждет ли файл открытия / загрузки в файловый кеш?Или вызов разрешает переключение контекста во время выполнения операции?
  8. Когда open () завершается, планировщик перераспределяет этот поток, чтобы выполнить его раньше, или поток должен ждать до своего поворота вциклический способ;
  9. Будет ли иметь значение изменение монтированного тома, на котором находятся 1000 файлов, доступного только для чтения или чтения / записи?
  10. Когда open () вызывается с полнымпуть, каждый элемент в пути stat () ed?Имеет ли смысл открывать () общий каталог в дереве списка файлов, а затем открывать () файлы в этом общем каталоге по относительному пути?

Настройка теста разработки:

Red Hat Enterprise Linux Server release 5.4 (Tikanga)

8-CPUS, each with characteristics as shown below:

processor       : 0
vendor_id       : GenuineIntel
cpu family      : 6
model           : 23
model name      : Intel(R) Xeon(R) CPU           X5460  @ 3.16GHz
stepping        : 6
cpu MHz         : 1992.000
cache size      : 6144 KB
physical id     : 0
siblings        : 4
core id         : 1
cpu cores       : 4
apicid          : 1
fpu             : yes
fpu_exception   : yes
cpuid level     : 10
wp              : yes
flags           : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm syscall lm constant_tsc pni monitor ds_cpl vmx est tm2 ssse3 cx16 xtpr sse4_1 lahf_lm
bogomips        : 6317.47
clflush size    : 64
cache_alignment : 64
address sizes   : 38 bits physical, 48 bits virtual
power management:

GNU C compiler, version:
gcc (GCC) 4.1.2 20080704 (Red Hat 4.1.2-46)

1 Ответ

1 голос
/ 28 июля 2010

Не уверен, что это одна из ваших проблем, но она может быть полезной.

Единственное, что меня поразило при оптимизации тысяч случайных чтений на одном диске SATA, это то, чтоблокировать ввод / вывод в linux не так просто, без лишних потоков.

(в настоящее время) невозможно выдать неблокирующую read() на блочном устройстве;то есть он будет блокировать в течение 5 мс времени поиска, в котором нуждается диск (а 5 мс - это вечность при 3 ГГц).Указание от O_NONBLOCK до open() только служило некоторой цели для обратной совместимости, с записывающими устройствами для компакт-дисков или чем-то еще (это было довольно расплывчатым вопросом).Обычно open() ничего не блокирует и не кэширует, это в основном просто получение дескриптора файла для последующего ввода-вывода некоторых данных.

Для моих целей mmap(), казалось, воспринимал меня какблизко к ядру обработки диска, насколько это возможно.Используя madvise() и mincore(), я смог полностью использовать возможности NCQ диска, что было просто доказано изменением глубины очереди невыполненных запросов, которая оказалась обратно пропорциональной общему времени, затрачиваемому на чтение 10k операций чтения..

Благодаря 64-разрядной адресации памяти, использование mmap() для сопоставления всего диска памяти не представляет никакой проблемы.(на 32-битных платформах вам необходимо отобразить нужные вам части диска, используя mmap64())

...