Например, у меня есть следующий URL-адрес в формате PDF:
https://creativecoding.soe.ucsc.edu/courses/cs523/slides/week3/DeepLearning_LeCun.pdf
Использование скриптов Google Я хотел бы извлечь его содержимое.До сих пор я пробовал это:
var response = UrlFetchApp.fetch("https://creativecoding.soe.ucsc.edu/courses/cs523/slides/week3/DeepLearning_LeCun.pdf"); Logger.log(response.getContentText());
К сожалению, это возвращает HTML-текст, который не читается и не имеет отношения к мне.Я хотел бы извлечь основную часть этого документа (фактическая текстовая информация).У вас есть подобный опыт, как это сделать?
На самом деле я нашел решение.Вы можете преобразовать его в blob в формате pdf, а затем использовать pdftotext для преобразования его в текст.
var response = UrlFetchApp.fetch("https://creativecoding.soe.ucsc.edu/courses/cs523/slides/week3/DeepLearning_LeCun.pdf"); var blob = response.getAs('application/pdf') var filetext = pdfToText( blob, {keepTextfile: false} );