Мы используем библиотеку tika 1.9 для извлечения контента. Система обрабатывает входящие данные и извлекает их содержимое.
Для повышения производительности у нас есть 100 потоков, которые фактически извлекают данные из тика. Хотя, если мы увеличим количество потоков выше 100, дальнейшее улучшение производительности не произойдет.
Мы используем один и тот же экземпляр AutoDetectParser для всех потоков, может ли это привести к «горлышку бутылки»?
Кроме того, в tika есть что-то, что можно настроить для повышения производительности извлечения контента.
Мы также пытались выполнить то же упражнение с тика 1.15, но опять же не было никакого увеличения производительности.
С уважением,
Gaurav