Как реализовать технику токенизации в моем OCR извлеченном тексте - PullRequest
0 голосов
/ 25 сентября 2019

Я извлек текст из изображения с помощью OCR, теперь у меня есть текст Stringbulider. Моя проблема в том, что я должен токенизировать этот текст. Пожалуйста, заранее помогите мне с вашими пожеланиями.Если вы видите мой код в последней строке, я получаю строку текста

"var text = strBuilder.ToString ();"// Из этой строки мне нужно реализовать технику токенизации

Я пробовал это Как найти повторяющиеся группы слов в тексте с помощью C #? , но я хочу найти всю строку и найти наиболее часто встречающиесяслова автоматически, без совпадения слов.

Activity.cs

TextRecognizer txtRecognizer = new TextRecognizer.Builder(ApplicationContext).Build();
                if (!txtRecognizer.IsOperational)
                {
                    Log.Error("Error", "Detector dependencies are not yet available");
                }
                else
                {
                    Frame frame = new Frame.Builder().SetBitmap(bitmap).Build();
                    SparseArray items = txtRecognizer.Detect(frame);
                    StringBuilder strBuilder = new StringBuilder();
                    for (int i = 0; i < items.Size(); i++)
                    {
                        TextBlock item = (TextBlock)items.ValueAt(i);
                        strBuilder.Append(item.Value);
                        strBuilder.Append("\n");

                    }
                    var text = strBuilder.ToString();
...