У меня загружен неизвестный тип файла.Это может быть doc, pdf, xls и т. Д.
Моя конечная цель:
- Определить, есть ли в файле абзацы текста (в отличие, скажем, отнабор подписей к рисункам или текст из диаграммы или таблицы)
- Если (1) имеет значение true, и есть абзацы текста, извлеките несколько примеров абзацев из файла.
Iзнаю, что я могу использовать программу, такую как Apache Tika , чтобы извлечь файл в String
.
Однако я хотел бы также получить формат извлеченного текста и определить, где тамявляются абзацами полного письменного текста (в отличие от подписей и т.В частности, я хотел бы, чтобы библиотека могла идентифицировать полные письменные абзацы, а не текст, который был просто взят из таких вещей, как подписи к фотографиям, диаграммы и т. Д.
Хотя Tika - довольно большая библиотека, я быготовы добавить его, если он может выполнять те задачи, которые мне нужны.
Однако я не могу найти в Тике ничего, что позволило бы мне анализировать структуру текста таким образом.
Есть ли что-то, что я пропустил?
Кроме Тики, мне известны некоторые API для анализа текста, в частности Comprehend или Textract, но я все еще не мог найти что-то, что может гарантироватьизвлечение полных письменных абзацев по мере необходимости.
Я ищу любое предложение, используя библиотеки, перечисленные выше, или другие.Опять же, я бы хотел избежать таких вещей, как подписи к фотографиям и тому подобное, и получать только текст, который был частью полных письменных абзацев.
Есть ли какая-либо библиотека, которая может помочь мне в этом, или мне придется кодироватьСама логика (для обнаружения абзацев, а также для определения разницы между полными абзацами и текстом, извлеченным из диаграмм и подписей)?