Тика производительность 1.9 - PullRequest
0 голосов
/ 17 мая 2018

Мы используем библиотеку tika 1.9 для извлечения контента. Система обрабатывает входящие данные и извлекает их содержимое. Для повышения производительности у нас есть 100 потоков, которые фактически извлекают данные из тика. Хотя, если мы увеличим количество потоков выше 100, дальнейшее улучшение производительности не произойдет.

Мы используем один и тот же экземпляр AutoDetectParser для всех потоков, может ли это привести к «горлышку бутылки»?

Кроме того, в tika есть что-то, что можно настроить для повышения производительности извлечения контента.

Мы также пытались выполнить то же упражнение с тика 1.15, но опять же не было никакого увеличения производительности.

С уважением, Gaurav

...