Я извлек текст с помощью OCR из нескольких стилизованных документов в Swedi sh. Теперь я хочу формализовать данные и извлечь названия городов. Из-за некорректной работы OCR имена иногда пишутся неправильно и отображаются в полуслучайных позициях в тексте. Поэтому регулярное выражение не работает.
Это хорошая процедура / можно ли преобразовать текст в пакеты слов и обучить алгоритм для двоичной категоризации слов как город против города?
Рассмотрим пример набора данных:
Col1 Col2
['Hi', 'there', 'Haag'] ['Haag']
[‘Paris, ‘is’, ‘better’, ‘than’, ‘Osloe] [‘Paris’, ‘Oslo’]
['My', 'hometown', 'is', 'New York'] ['New York']
...
Я хочу использовать Col1 как переменную X и Col2 как переменную Y. Это хорошая процедура или я должен использовать другой метод?