В моем коде мне нужно прочитать содержимое PDF-файла и, основываясь на некоторых конкретных требованиях, мне нужно вставить содержимое PDF в базу данных SQL-сервера.
Я использовал iTextsharp для чтения PDF. Он хорошо читает, когда нашел всю строку в PDF.
Проблемы возникают, когда они находят таблицу внутри PDF.
Сначала он попадает в column1, читает строку, переходит в column2, читает эту строку и так далее.
Проблема заключается в том, что column1 содержит строку абзаца, а column2 содержит строку абзаца. Он разбивает эти абзацы на отдельные строки, которые не имеют смысла.
Я хочу, чтобы это работало так, как если бы он переходил к колонке 1 и читал абзац, а если он нашел новый абзац после новой строки, то читал абзац из второй строки.
После обработки column1 затем переходит в colum2.
В настоящее время я использую код ниже:
PdfReader reader = new PdfReader(@"D:\pdf1.pdf");
int PageNum = reader.NumberOfPages;
StringBuilder text = new StringBuilder();
for (int i = 1; i <= PageNum; i++)
{
ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
string currentText = PdfTextExtractor.GetTextFromPage(reader, i, strategy);
currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default,
Encoding.UTF8,
Encoding.Default.GetBytes(currentText)));
text.Append(currentText);
ReadContent(text.ToString());
text.Clear();
}