Угадай категории для квитанций - PullRequest
0 голосов
/ 22 декабря 2018

У нас есть большое количество чеков (более 20 тыс.), И мы хотим классифицировать эти чеки.Одна квитанция может принадлежать к одной или нескольким категориям.И у нас есть более 500 категорий в настоящее время.

т.е.

  • Если квитанция об оплате за интернет.Тогда наша категория - «Интернет-сервис», и у нас есть информация об интернет-провайдере и платежная информация в квитанции.
  • Если квитанция касается обеда, то наша категория - «FoodAndBeverages», и у нас есть название ресторана, информация о еде и количество.
  • Если квитанция о платеже за такси, то наша категория - «Транспорт», и у нас есть информация о компании такси, транспорт, водитель, информация о местонахождении и суммы.

Таким образом, кроме категорий, которые я упомянул в приведенных выше примерах, у нас есть налоговая категория, и большинство поступлений являются ее частью.Таким образом, каждая квитанция может иметь одну или несколько категорий.

Итак, чтобы угадать эту категорию, мы пошли с решением по классификации по нескольким меткам.В настоящее время мы возьмем весь текст чека и обучим нашу модель с текстом чека и имеющимися у нас категориями.

Хотите убедиться, что мы следуем правильному подходу к решению этой проблемы.С нетерпением ждем мысли экспертов здесь.

1 Ответ

0 голосов
/ 22 декабря 2018

Согласно вашему объяснению, проблема, которую вы решаете, - это классификация по нескольким классам, а не классификация по нескольким меткам, основанная на ваших примерах.

Если каждая квитанция сопоставлена ​​только с одной категорией из множества возможных категорий, то это классификация нескольких классов.

Если каждая квитанция может быть сопоставлена ​​более чем одной категории из множества возможных категорий, то это классификация по нескольким меткам.

Более подробное описание и знать о доступных алгоритмах в sklearn для решения этих проблем смотрите здесь .

Для более простых шагов для работы с текстовыми данными, читайте здесь

РЕДАКТИРОВАТЬ:

У вас может быть отдельная модель для прогнозирования налоговой категории длякаждая квитанцияПоскольку построение нескольких мультиклассовых моделей относительно проще, чем создание одной мультибликовой модели

...