Я работаю над проектом машинного обучения (NLP), в котором я хотел бы использовать текстовое содержимое и стили шрифтов для обучения модели идентификации частей документа.Я нашел apache tika & POI, но я пытаюсь понять, как анализировать больше, чем текст.