Question

У меня загружен неизвестный тип файла.Это может быть doc, pdf, xls и т. Д.

Моя конечная цель:

Определить, есть ли в файле абзацы текста (в отличие, скажем, отнабор подписей к рисункам или текст из диаграммы или таблицы)
Если (1) имеет значение true, и есть абзацы текста, извлеките несколько примеров абзацев из файла.

Iзнаю, что я могу использовать программу, такую как Apache Tika , чтобы извлечь файл в String.

Однако я хотел бы также получить формат извлеченного текста и определить, где тамявляются абзацами полного письменного текста (в отличие от подписей и т.В частности, я хотел бы, чтобы библиотека могла идентифицировать полные письменные абзацы, а не текст, который был просто взят из таких вещей, как подписи к фотографиям, диаграммы и т. Д.

Хотя Tika - довольно большая библиотека, я быготовы добавить его, если он может выполнять те задачи, которые мне нужны.

Однако я не могу найти в Тике ничего, что позволило бы мне анализировать структуру текста таким образом.

Есть ли что-то, что я пропустил?

Кроме Тики, мне известны некоторые API для анализа текста, в частности Comprehend или Textract, но я все еще не мог найти что-то, что может гарантироватьизвлечение полных письменных абзацев по мере необходимости.

Я ищу любое предложение, используя библиотеки, перечисленные выше, или другие.Опять же, я бы хотел избежать таких вещей, как подписи к фотографиям и тому подобное, и получать только текст, который был частью полных письменных абзацев.

Есть ли какая-либо библиотека, которая может помочь мне в этом, или мне придется кодироватьСама логика (для обнаружения абзацев, а также для определения разницы между полными абзацами и текстом, извлеченным из диаграмм и подписей)?

Извлечь образец абзаца из файла

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Извлечь образец абзаца из файла

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы