У меня следующая проблема: у меня много документов в формате pdf, и мне нужно извлечь информацию с первой страницы каждой страницы, а затем сохранить ее в базе данных
Мне просто нужно извлечь, название, реферат, ключевые слова, список авторов, список университетов, электронные письма. Я хочу сделать скрипт, чтобы получить строку для каждого из этих полей, для каждой статьи.
Как я могу это сделать? Кто-нибудь уже сделал это? Какие языки и инструменты вы мне порекомендуете?
и существует ли бумажный репозиторий, который уже выполняет эту базу данных?
Учитывая, что PDF-файлы могут быть с разными кодировками, я тоже должен решить эту проблему. Любая помощь с этим была бы великолепна.
Пример бумаги здесь
Привет! * * 1013