перечисление всех тегов в документе PDF с использованием abcpdf - PullRequest
0 голосов
/ 05 октября 2010

Я пытаюсь использовать компонент AbcPdf .net (версия 7) для обработки некоторых PDF-файлов и создания метаданных.Мне было интересно, есть ли в любом случае перечислить все теги в документе PDF?В качестве примера тегового PDF я использую этот файл здесь

Есть ли какие-либо другие компоненты или инструменты, доступные для перечисления или извлечения тегов PDF?за вашу помощь

1 Ответ

0 голосов
/ 01 сентября 2011

Используйте iTextSharp.Это бесплатно, и вам нужен только "itextsharp.dll".

http://sourceforge.net/projects/itextsharp/

Вот простая функция для чтения текста из PDF.

Public Shared Function GetTextFromPDF(PdfFileName As String) As String
    Dim oReader As New iTextSharp.text.pdf.PdfReader(PdfFileName)

    Dim sOut = ""

    For i = 1 To oReader.NumberOfPages
        Dim its As New iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy

        sOut &= iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(oReader, i, its)
    Next

    Return sOut
End Function

ITextSharp также имеет методы для работы с тегами.

...