Извлечь текст содержания из PDF-URL с помощью Google Scripts - PullRequest
0 голосов
/ 22 марта 2019

Например, у меня есть следующий URL-адрес в формате PDF:

https://creativecoding.soe.ucsc.edu/courses/cs523/slides/week3/DeepLearning_LeCun.pdf

Использование скриптов Google Я хотел бы извлечь его содержимое.До сих пор я пробовал это:

var response = UrlFetchApp.fetch("https://creativecoding.soe.ucsc.edu/courses/cs523/slides/week3/DeepLearning_LeCun.pdf");
Logger.log(response.getContentText()); 

К сожалению, это возвращает HTML-текст, который не читается и не имеет отношения к мне.Я хотел бы извлечь основную часть этого документа (фактическая текстовая информация).У вас есть подобный опыт, как это сделать?

1 Ответ

0 голосов
/ 22 марта 2019

На самом деле я нашел решение.Вы можете преобразовать его в blob в формате pdf, а затем использовать pdftotext для преобразования его в текст.

 var response = UrlFetchApp.fetch("https://creativecoding.soe.ucsc.edu/courses/cs523/slides/week3/DeepLearning_LeCun.pdf");
  var blob = response.getAs('application/pdf')
  var filetext = pdfToText( blob, {keepTextfile: false} );
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...