Я только начал изучать Apache Tika.
Я хочу проверить, как работают процессы Apache Tika.
Я пытался запустить Tika на отдельной машине, но хотел знать, как она работает в среде Cloudera Cluster в реальном времени.
Пример. У меня есть PDF-файл на 200 страниц, и я использую Tika для извлечения текста или функций. Будет ли Тика выполнять этот процесс, используя один узел (т.е. рассматривая один файл как один блок), или он будет выполняться с использованием нескольких узлов?
Я просто сравниваю процесс Tika с Mapreduce и узнаю, обрабатывает ли Tika файл блок за блоком.
Пожалуйста, помогите мне понять этот фон процессов.
У меня нет сейчас кода со мной.
Пожалуйста, помогите мне понять, что фоновые процессы работают с точки зрения узлов.