Как классифицировать строки по категориям (под наблюдением) - PullRequest
0 голосов
/ 02 января 2019

Это январь 2019 года, и я хотел бы лучше понять мои расходы. Я загрузил свои банковские записи в виде CSV-файлов и начал классифицировать различные транзакции по категориям, когда понял, что это можно автоматизировать. В конце концов я хотел бы получить проценты для каждой категории, например, Я потратил 12% на еду и напитки.

Информация на голландском языке, поэтому применение предварительно обученных моделей может не сработать без предварительного перевода.

Я знаю, что для этой задачи доступны сторонние инструменты, но я бы хотел сделать это сам (желательно на python) в качестве упражнения и потому, что это весело.

Примеры категорий: Заработная плата, аренда, еда и напитки, отдых и т. Д.

Для ввода данных используется размер (2000 строк и 9 столбцов) enter image description here

Я исследовал несколько вариантов:

  1. Используйте регулярные выражения для классификации. Потенциально используя нечеткое сопоставление строк. Хотя это возможно, это скучный вариант и не будет хорошо обрабатывать новые категории.

  2. Извлечение названного объекта (после перевода) Другая возможность, но мой набор данных на голландском языке и очень конкретный. Я не уверен, что такой общий подход является лучшим. Кроме того, как бы я обработал случаи, когда одно описание приводит к нескольким объектам?

  3. Нейронная сеть.
    Это было бы круто, но простой поиск в Google не дал простых учебников для классификации строк по категориям. У меня есть небольшой опыт в машинном обучении, но только в сверточном. Я не знаю, как преобразовать столбцы описания в функции, и я не знаю, сколько строк мне нужно пометить вручную, чтобы достичь приемлемой производительности, хотя я мог бы сделать простой метод проб и ошибок, чтобы ответить на последний.

  4. Решения, представленные в другом вопросе .
    Включая SVM или наивный байесовский. У меня нет опыта работы с любым из этих подходов, поэтому я хотел бы дважды проверить здесь, прежде чем выбрать неправильный подход. Также мои данные сильно отличаются от вопроса.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...