Лучший способ классифицировать грязные текстовые данные описания продукта - PullRequest
1 голос
/ 23 января 2020

Конвейер вложений Word + Извлечение функций + Классификатор часто используется в текстовой классификации (категории, такие как Одежда, Игрушки, Еда и т. Д. c.), Но это предполагает, что многое в данных хорошо -structured . Как насчет методов классификации текстовых данных, которые полны типографских ошибок (например, "RUBBER DUCK TYS" ), пропусков (например, "PINKPOLYESTERDRESSES" ), группы вставленных случайных слов (например, "ЧИП INTEL 220 мг 1104 СТАРЫЙ ГОРОД ST. ) и др. c.?

Я знаю, что можно использовать n-граммовый подход + классификатор, но

  1. использование n-граммы, вероятно, требует больших вычислительных ресурсов (представьте, что набор данных, состоящий из 100 миллионов записей о продуктах, подобных этому
  2. , невозможно использовать вложения в n-граммах (ПЛАТЬЕ ПРОТИВОПОКРЫТИЯ с использованием триграмм)

Как вы думаете, какие подходы применимы к этому?

1 Ответ

0 голосов
/ 23 января 2020
Методы

n -грамм требуют, чтобы входной текст был еще лучше структурирован. Обычно вы представляете входные данные в виде пакета n -грамм, поэтому полагайтесь на точно такие же n -граммы, которые появляются в данных обучения и данных испытаний. С другой стороны, при использовании предварительно обученных вложений похожие слова представляются одинаково, поэтому вам не нужно видеть одни и те же слова в обучающих и тестовых данных.

Существуют также методы обучения * 1009 Вложения * n -грамм (например, https://github.com/artetxem/phrase2vec), но они окупаются, только если у вас есть действительно большие данные, такие как миллионы предложений.

В этом случае я бы скажем, вы должны сосредоточиться на очистке ваших данных. (Удаление стоп-слов, OOV и некоторая нормализация должны помочь.)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...