Не уверен, если это вообще возможно, но здесь идет ...
- Мне нужен процесс, который автоматически проверяет определенные сайты каждый день на наличие новых файлов PDF. Сайты структурированы как файловые репозитории (не FTP-сайты) следующим образом:
http://www.austrac.gov.au/enforcement-action/enforceable-undertakings
- Если процесс находит новый файл, которого не было в предыдущий день, он должен автоматически загрузить его в папку на Google Диске, например:
https://drive.google.com/drive/folders/1Hy27yHU2SdKzHhWTs6uLr92QUWCisJtL
В идеале также необходимо ввести название документа, ссылку, мета-описание и дату загрузки в электронную таблицу Master Source, в которой хранятся записи всех таких файлов, которые были загружены. Он должен автоматически создавать новую строку в этой таблице для каждой загрузки.
Даже в идеале, он должен достаточно хорошо проанализировать pdf-файл, чтобы определить заголовок и сводку документа на странице, а также сохранить их в электронной таблице Master Source.
Код был бы УДИВИТЕЛЬНЫМ, но приветствуются даже высокоуровневые технологические решения. Спасибо!