Question

Я использую Nightwatch / NodeJ, использующие огурец для автоматизации.У меня много областей, где создаются PDF-файлы, и их необходимо проверить.Есть ли способ проверить содержимое PDF, которое загружено, включая текст / изображения и т. Д.?

Заранее спасибо.

tehbeardedone · Answer 1 · 25 апреля 2018

Вы можете использовать пакет pdfjs-dist для чтения содержимого PDF. По моему опыту это работало большинство времени. У меня было несколько случаев, когда он не возвращал содержимое, хотя я мог видеть, что в файле есть текст. Я не пытался понять, почему это так, но большую часть времени он работал для меня без проблем. Кроме того, я использовал его только для проверки текста. Я не пытался использовать его для изображений, поэтому я не уверен, что он сможет это сделать. Вы можете найти более подробную информацию здесь .

Это позволит вам получить весь текст в массив. То, что вы делаете с этим от вас, зависит от вас.

pdfjs.getDocument('path/to/your/file.pdf').then(function(document) {
    document.getPage(1).then(function(page) {                    
        page.getTextContent().then(function(text) {
            const allText = text.items.map(function(s) { return s.str }).concat('');
            //console.log(allText);
        });                   
    });
});

Автоматизируйте содержание PDF с помощью Nightwatch / Cucumber

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Автоматизируйте содержание PDF с помощью Nightwatch / Cucumber

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы