Вариант использования: OCR PDF, индексировать текст и сделать текст доступным для поиска.
Скажем, у меня есть такой класс:
public class Scan
{
public int Id { get; set; }
public string Name { get; set; }
public int PageNumber { get; set; }
public string[] Names { get; set; }
public string[] OCRText { get; set; }
}
Когда я сканирую PDF, я хочу сохранитьдокументы в отдельных результатах страницы, так что, скажем, Scanned.PDF хранится в имени:
ID: 1, Name: 'Scanned.PDF, PageNumber: 1, ...'
ID: 2, Name: 'Scanned.PDF, PageNumber: 2, ...'
ID: 3, etc.
Затем я приложу метаданные (IE: имена) и полученный текст OCR
Мой вопрос:
Каков наилучший способ сделать OCRText «доступным для поиска» через Google / ElasticSearch.
Я хочу иметь возможность искать «John» и находить все страницы с именем John (IE: Джонни)
Боюсь, индекс для блоков OCRText может быть громоздким.