извлекать связанные значения из текстовых документов с таблицами в качестве возвратов - PullRequest
0 голосов
/ 16 февраля 2019

У меня есть проблема с извлечением информации из PDF-документов.Мне удалось перевести связанную информацию из PDF в кадры данных в r.Задача заключается в том, чтобы получить информацию, скрытую в тексте, возможно ли получить информацию, возвращаемую в виде таблиц?

Например, у меня есть список животных, обезьян, тупиков, тунцов и т. Д. В виде наблюдений и их характеристики в качестве переменных.Например, голова, хвост, глаза, волосы, длина, вес ... Я прошу код использовать эти запросы для поиска в соответствующих документах, возвращающихся с таблицей в формате строк в виде наблюдений и столбцов в качестве переменных (если значения не найденывернуть как НС в ассоциированные клетки)?

Я использовал R для извлечения интересующих параметров из PDF-файлов.Мой код не гибкий и позволяет мне только извлекать и убирать определенные страницы, представляющие интерес.Эти страницы представляют собой довольно структурированное приложение с тегами, которые я могу использовать, чтобы сузить свой поиск.

...