Я использую PDFBox для извлечения текста из PDF. PDF имеет табличную структуру, которая довольно...
Есть ли способ использовать читабельность (алгоритм извлечения текста) и собственный алгоритм в...
Я после специализированного экстрактора файлов обычного текста. Во-первых, прежде чем люди кричат...
Я хотел бы преобразовать HTML в простой текст, но сохранить минимальную структуру. Все разделы,...
Доброе утро Я пытаюсь получить строку таблицы (TR), которая должна иметь одну или несколько ячеек...
System.ArgumentException не было обработано кодом пользователя.ComputeBytesPerRow (PdfDictionary...
Предположим, у меня есть текстовый файл жанров фильмов с моими любимыми фильмами под каждый жанр....
Мне нужно извлечь текст из PDF-файлов с помощью iText. Проблема в том, что некоторые PDF-файлы...
Не удалось найти лучший заголовок, но мне нужно Regex для извлечения ссылки из примера ниже. snip..
Поскольку я новичок в REGEX, я не могу решить следующую вещь. И, пожалуйста, поделитесь ссылками,...
Привет! Я читаю строку, разбиваю каждое слово и сортирую его по имени, электронной почте и номеру...
У меня есть несколько PDF-файлов, которые были созданы из файлов Word или Excel. Мне нужно получить...
У меня есть огромный набор данных таблиц в формате документов Open Office 3.0 . Table 1: (x...
Мне известны такие утилиты, как html2text, BeautifulSoup и т. Д., Но проблема в том, что они также...
Есть ли (ненавязчивый для пользователя) способ получить весь текст на странице с помощью Javascript
Я хочу извлечь определенные элементы из большого количества неструктурированных документов. Эти...
Я хочу прочитать pdf-файл с оригинальным содержимым, таким как его шрифт (возможно, какой-то размер...
Я хочу извлечь некоторые ключевые слова из строки запроса для приложения поиска в asp.net. Сначала...
Мне нужно несколько направлений для решения следующей проблемы: У меня много файлов InDesign, и мне...
Я уже задавал подобный вопрос ранее, но я заметил, что у меня есть большие ограничения: я работаю...
Я пытаюсь разобраться с Попплером и его (отсутствием) документации. То, что я хочу сделать, - это...
Я хочу получить %tagname% из файла и скопировать их в словарь только tagname в python.
Posterous позволяет публиковать множество объектов по электронной почте. Мы хотели бы разрешить...
В основном я хочу извлечь строки "AAA", "BBB", "CCC", "DDD" из текстового файла ... ...... (other...
Мне нужно извлечь содержимое окна, если оно основано на тексте или хотя бы пути к файлу, связанному...