Конвейер вложений Word + Извлечение функций + Классификатор часто используется в текстовой классификации (категории, такие как Одежда, Игрушки, Еда и т. Д. c.), Но это предполагает, что многое в данных хорошо -structured . Как насчет методов классификации текстовых данных, которые полны типографских ошибок (например, "RUBBER DUCK TYS" ), пропусков (например, "PINKPOLYESTERDRESSES" ), группы вставленных случайных слов (например, "ЧИП INTEL 220 мг 1104 СТАРЫЙ ГОРОД ST. ) и др. c.?
Я знаю, что можно использовать n-граммовый подход + классификатор, но
- использование n-граммы, вероятно, требует больших вычислительных ресурсов (представьте, что набор данных, состоящий из 100 миллионов записей о продуктах, подобных этому
- , невозможно использовать вложения в n-граммах (ПЛАТЬЕ ПРОТИВОПОКРЫТИЯ с использованием триграмм)
Как вы думаете, какие подходы применимы к этому?