Это январь 2019 года, и я хотел бы лучше понять мои расходы. Я загрузил свои банковские записи в виде CSV-файлов и начал классифицировать различные транзакции по категориям, когда понял, что это можно автоматизировать. В конце концов я хотел бы получить проценты для каждой категории, например, Я потратил 12% на еду и напитки.
Информация на голландском языке, поэтому применение предварительно обученных моделей может не сработать без предварительного перевода.
Я знаю, что для этой задачи доступны сторонние инструменты, но я бы хотел сделать это сам (желательно на python) в качестве упражнения и потому, что это весело.
Примеры категорий:
Заработная плата, аренда, еда и напитки, отдых и т. Д.
Для ввода данных используется размер (2000 строк и 9 столбцов)
Я исследовал несколько вариантов:
Используйте регулярные выражения для классификации.
Потенциально используя нечеткое сопоставление строк.
Хотя это возможно, это скучный вариант и не будет хорошо обрабатывать новые категории.
Извлечение названного объекта (после перевода)
Другая возможность, но мой набор данных на голландском языке и очень конкретный. Я не уверен, что такой общий подход является лучшим. Кроме того, как бы я обработал случаи, когда одно описание приводит к нескольким объектам?
Нейронная сеть.
Это было бы круто, но простой поиск в Google не дал простых учебников для классификации строк по категориям. У меня есть небольшой опыт в машинном обучении, но только в сверточном. Я не знаю, как преобразовать столбцы описания в функции, и я не знаю, сколько строк мне нужно пометить вручную, чтобы достичь приемлемой производительности, хотя я мог бы сделать простой метод проб и ошибок, чтобы ответить на последний.
Решения, представленные в другом вопросе .
Включая SVM или наивный байесовский. У меня нет опыта работы с любым из этих подходов, поэтому я хотел бы дважды проверить здесь, прежде чем выбрать неправильный подход. Также мои данные сильно отличаются от вопроса.