Я не уверен, что это лучшее место для отправки вопросов такого рода, возможно, CrossValdation будет лучшим местом.
Я работаю над проблемой классификации текстовых мультиклассов. Я построил модель, основанную на концепции BERT, реализованной в PyTorch (библиотека преобразователя huggingface). Модель работает довольно хорошо, за исключением случаев, когда во входном предложении есть ошибка OCR или, что то же самое, написано с ошибкой
Например, если введено «NALIBU DRINK», токенизатор Bert генерирует ['na', '## lib', '## u', 'drink'] и прогноз модели совершенно неверен. С другой стороны, если я исправляю первый символ, поэтому я ввожу «MALIBU DRINK», токенизатор Bert генерирует два токена ['malibu', 'drink'], и модель делает правильный прогноз с очень высокой достоверностью.
Есть ли способ улучшить токенизатор Bert, чтобы он мог работать со словами с ошибками?