Извлечь образец абзаца из файла - PullRequest
0 голосов
/ 06 июня 2019

У меня загружен неизвестный тип файла.Это может быть doc, pdf, xls и т. Д.

Моя конечная цель:

  1. Определить, есть ли в файле абзацы текста (в отличие, скажем, отнабор подписей к рисункам или текст из диаграммы или таблицы)
  2. Если (1) имеет значение true, и есть абзацы текста, извлеките несколько примеров абзацев из файла.

Iзнаю, что я могу использовать программу, такую ​​как Apache Tika , чтобы извлечь файл в String.

Однако я хотел бы также получить формат извлеченного текста и определить, где тамявляются абзацами полного письменного текста (в отличие от подписей и т.В частности, я хотел бы, чтобы библиотека могла идентифицировать полные письменные абзацы, а не текст, который был просто взят из таких вещей, как подписи к фотографиям, диаграммы и т. Д.

Хотя Tika - довольно большая библиотека, я быготовы добавить его, если он может выполнять те задачи, которые мне нужны.

Однако я не могу найти в Тике ничего, что позволило бы мне анализировать структуру текста таким образом.

Есть ли что-то, что я пропустил?

Кроме Тики, мне известны некоторые API для анализа текста, в частности Comprehend или Textract, но я все еще не мог найти что-то, что может гарантироватьизвлечение полных письменных абзацев по мере необходимости.

Я ищу любое предложение, используя библиотеки, перечисленные выше, или другие.Опять же, я бы хотел избежать таких вещей, как подписи к фотографиям и тому подобное, и получать только текст, который был частью полных письменных абзацев.

Есть ли какая-либо библиотека, которая может помочь мне в этом, или мне придется кодироватьСама логика (для обнаружения абзацев, а также для определения разницы между полными абзацами и текстом, извлеченным из диаграмм и подписей)?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...