Я использую следующий код для разбора текста из PDF-файла с использованием .NET-версии PDFBox.
Imports org.apache.pdfbox.pdmodel
Imports org.apache.pdfbox.util
Private Shared Function parseUsingPDFBox(ByVal input As String) As String
Dim doc As PDDocument = Nothing
Try
doc = PDDocument.load(input)
Dim stripper As New PDFTextStripper()
Return stripper.getText(doc)
Finally
If doc IsNot Nothing Then
doc.close()
End If
End Try
End Function
http://www.squarepdf.net/how-to-convert-pdf-to-text-in-net-vb
Код извлекает обычный видимый текст, но не извлекает комментарии.
Я пытался использовать FDFAnnotation.ToString (), но он предупреждает, что ToString () является неоднозначным ...
doc = PDDocument.load(strFilename)
Dim stripper As New FDFAnnotationText
Return stripper.tostring(doc)
Я пробовал iTextSharp, и с этим я могу извлечь их, используя класс PdfName.ANNOTS, но хочу придерживаться PDFBox.
Мой любимый язык - VB, но я тоже рад принимать ответы на C #.