ежедневный автоматический импорт новых файлов pdf с различных сайтов - PullRequest
0 голосов
/ 04 января 2019

Не уверен, если это вообще возможно, но здесь идет ...

  1. Мне нужен процесс, который автоматически проверяет определенные сайты каждый день на наличие новых файлов PDF. Сайты структурированы как файловые репозитории (не FTP-сайты) следующим образом:

http://www.austrac.gov.au/enforcement-action/enforceable-undertakings

  1. Если процесс находит новый файл, которого не было в предыдущий день, он должен автоматически загрузить его в папку на Google Диске, например:

https://drive.google.com/drive/folders/1Hy27yHU2SdKzHhWTs6uLr92QUWCisJtL

  1. В идеале также необходимо ввести название документа, ссылку, мета-описание и дату загрузки в электронную таблицу Master Source, в которой хранятся записи всех таких файлов, которые были загружены. Он должен автоматически создавать новую строку в этой таблице для каждой загрузки.

  2. Даже в идеале, он должен достаточно хорошо проанализировать pdf-файл, чтобы определить заголовок и сводку документа на странице, а также сохранить их в электронной таблице Master Source.

Код был бы УДИВИТЕЛЬНЫМ, но приветствуются даже высокоуровневые технологические решения. Спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...