C # LiteDB - индексные и поисковые текстовые блоки - PullRequest
0 голосов
/ 12 февраля 2019

Вариант использования: OCR PDF, индексировать текст и сделать текст доступным для поиска.

Скажем, у меня есть такой класс:

public class Scan
{
    public int Id { get; set; }
    public string Name { get; set; }
    public int PageNumber { get; set; }
    public string[] Names { get; set; }
    public string[] OCRText { get; set; }
}

Когда я сканирую PDF, я хочу сохранитьдокументы в отдельных результатах страницы, так что, скажем, Scanned.PDF хранится в имени:

ID: 1, Name: 'Scanned.PDF, PageNumber: 1, ...'
ID: 2, Name: 'Scanned.PDF, PageNumber: 2, ...'
ID: 3, etc.

Затем я приложу метаданные (IE: имена) и полученный текст OCR

Мой вопрос:

Каков наилучший способ сделать OCRText «доступным для поиска» через Google / ElasticSearch.

Я хочу иметь возможность искать «John» и находить все страницы с именем John (IE: Джонни)

Боюсь, индекс для блоков OCRText может быть громоздким.

...