Двоичный классификатор слов в списке - PullRequest
0 голосов
/ 17 февраля 2020

Я извлек текст с помощью OCR из нескольких стилизованных документов в Swedi sh. Теперь я хочу формализовать данные и извлечь названия городов. Из-за некорректной работы OCR имена иногда пишутся неправильно и отображаются в полуслучайных позициях в тексте. Поэтому регулярное выражение не работает.

Это хорошая процедура / можно ли преобразовать текст в пакеты слов и обучить алгоритм для двоичной категоризации слов как город против города?

Рассмотрим пример набора данных:

Col1                                          Col2
['Hi', 'there', 'Haag']                      ['Haag']
[‘Paris, ‘is’, ‘better’, ‘than’, ‘Osloe]     [‘Paris’, ‘Oslo’]
['My', 'hometown', 'is', 'New York']         ['New York']
...

Я хочу использовать Col1 как переменную X и Col2 как переменную Y. Это хорошая процедура или я должен использовать другой метод?

1 Ответ

0 голосов
/ 17 февраля 2020

Один из возможных способов справиться с орфографическими ошибками - сначала собрать свой словарный запас (все слова в корпусе), а затем выбрать кандидатские ошибки OCR по частоте их индивидуальных терминов (при условии, что такие ошибки, как "Osloe" редки). На втором шаге вы можете использовать Изменить расстояние , чтобы связать возможные орфографические ошибки кандидатов с их правильными формами слов.

Чтобы извлечь города, вы можете, например, взглянуть на spacy * Предварительно обученные модели 1007 * для распознавания именованных сущностей.

Коллокации, подобные "New York", можно определить, сравнив частоту терминов с go в последовательности по сравнению с частотой отдельных терминов (в зависимости от вашего корпуса "York" может часто go вместе с "New" гораздо чаще, чем можно было бы предположить при предположении, что "New" и "York" являются независимыми).

...