Чтение параграфа в PDF - PullRequest
0 голосов
/ 01 июля 2019

В моем коде мне нужно прочитать содержимое PDF-файла и, основываясь на некоторых конкретных требованиях, мне нужно вставить содержимое PDF в базу данных SQL-сервера. Я использовал iTextsharp для чтения PDF. Он хорошо читает, когда нашел всю строку в PDF. Проблемы возникают, когда они находят таблицу внутри PDF.

Сначала он попадает в column1, читает строку, переходит в column2, читает эту строку и так далее. Проблема заключается в том, что column1 содержит строку абзаца, а column2 содержит строку абзаца. Он разбивает эти абзацы на отдельные строки, которые не имеют смысла.

Я хочу, чтобы это работало так, как если бы он переходил к колонке 1 и читал абзац, а если он нашел новый абзац после новой строки, то читал абзац из второй строки. После обработки column1 затем переходит в colum2.

В настоящее время я использую код ниже:

PdfReader reader = new PdfReader(@"D:\pdf1.pdf");
int PageNum = reader.NumberOfPages;

StringBuilder text = new StringBuilder();

for (int i = 1; i <= PageNum; i++)
{
    ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
    string currentText = PdfTextExtractor.GetTextFromPage(reader, i, strategy);

    currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default,
                                          Encoding.UTF8, 
                                          Encoding.Default.GetBytes(currentText)));
    text.Append(currentText);

    ReadContent(text.ToString());
    text.Clear();   
}
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...