Классификация текста с помощью BERT - как обрабатывать слова с ошибками - PullRequest
0 голосов
/ 03 апреля 2020

Я не уверен, что это лучшее место для отправки вопросов такого рода, возможно, CrossValdation будет лучшим местом.

Я работаю над проблемой классификации текстовых мультиклассов. Я построил модель, основанную на концепции BERT, реализованной в PyTorch (библиотека преобразователя huggingface). Модель работает довольно хорошо, за исключением случаев, когда во входном предложении есть ошибка OCR или, что то же самое, написано с ошибкой

Например, если введено «NALIBU DRINK», токенизатор Bert генерирует ['na', '## lib', '## u', 'drink'] и прогноз модели совершенно неверен. С другой стороны, если я исправляю первый символ, поэтому я ввожу «MALIBU DRINK», токенизатор Bert генерирует два токена ['malibu', 'drink'], и модель делает правильный прогноз с очень высокой достоверностью.

Есть ли способ улучшить токенизатор Bert, чтобы он мог работать со словами с ошибками?

1 Ответ

0 голосов
/ 07 апреля 2020

Вы можете использовать силу BERT, чтобы исправить слово с ошибкой. В статье, приведенной ниже, прекрасно объясняется этот процесс с помощью фрагментов кода https://www.statestitle.com/resource/using-nlp-bert-to-improve-ocr-accuracy/

Подводя итог, вы можете определить слова с ошибками с помощью функции SpellChecker и получить предложения по замене. Затем найдите наиболее подходящую замену с помощью BERT.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...