Автоматизируйте содержание PDF с помощью Nightwatch / Cucumber - PullRequest
0 голосов
/ 25 апреля 2018

Я использую Nightwatch / NodeJ, использующие огурец для автоматизации.У меня много областей, где создаются PDF-файлы, и их необходимо проверить.Есть ли способ проверить содержимое PDF, которое загружено, включая текст / изображения и т. Д.?

Заранее спасибо.

1 Ответ

0 голосов
/ 25 апреля 2018

Вы можете использовать пакет pdfjs-dist для чтения содержимого PDF. По моему опыту это работало большинство времени. У меня было несколько случаев, когда он не возвращал содержимое, хотя я мог видеть, что в файле есть текст. Я не пытался понять, почему это так, но большую часть времени он работал для меня без проблем. Кроме того, я использовал его только для проверки текста. Я не пытался использовать его для изображений, поэтому я не уверен, что он сможет это сделать. Вы можете найти более подробную информацию здесь .

Это позволит вам получить весь текст в массив. То, что вы делаете с этим от вас, зависит от вас.

pdfjs.getDocument('path/to/your/file.pdf').then(function(document) {
    document.getPage(1).then(function(page) {                    
        page.getTextContent().then(function(text) {
            const allText = text.items.map(function(s) { return s.str }).concat('');
            //console.log(allText);
        });                   
    });
});
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...