Из заголовка вашего вопроса я предполагаю, что вам просто нужно разбить PDF-файлы на части и что они уже OCR-файлы. Существует несколько библиотек .NET PDF с открытым исходным кодом. Я успешно использовал PDFSharp в своем собственном проекте.
Вот краткий фрагмент, показывающий, как вырезать каждую страницу из документа PDF с помощью PDFSharp:
string filePath = @"c:\file.pdf";
using (PdfDocument ipdf = PdfReader.Open(filePath, PdfDocumentOpenMode.ReadOnly))
{
int i = 1;
foreach (PdfPage page in ipdf.Pages)
{
using (PdfDocument opdf = new PdfDocument())
{
opdf.Version = ipdf.Version;
opdf.AddPage(page);
opdf.Save("page " + i++ + ".pdf");
}
}
}
Предполагая также, что для группировки необходим доступ к тексту в документе, вы можете использовать свойство PdfPage.Contents.