MATLAB предоставляет функцию extractFileText
, которая позволяет нам читать текст из файлов PDF, среди других форматов файлов, и сохранять извлеченный текст в виде строки.
Мы можем передать дополнительный аргумент этой функции для извлечения текста из определенных страниц документа.
Например, чтобы извлечь текст со страниц 3, 5 и 7 из образца exampleSonnets.pdf
файла:
str = extractFileText("exampleSonnets.pdf", 'Pages', [3 5 7]);
Однако эта функция не позволяет заранее определить общее количество страниц, содержащихся в документе PDF .
Так что, если нам случится сделать что-то вроде:
str = extractFileText("exampleSonnets.pdf", 'Pages', [99 100]);
Выдается следующая ошибка:
Error using extractFileText (line 95)
No page 100 in file. Maximum page number: 47.
Предупреждение о том, что мы запросили номер страницы, который превышает фактическое общее количество страниц в документе.
Это хорошо.
Однако как мне узнать общее количество страниц в документе PDF заранее , не вызывая ошибки, чтобы можно было безопасно сузить поиск до максимального номера страницы?
Есть ли функция для этой цели?