Существует ли способ кластеризации данных транзакций (журналов) с использованием python, если транзакция представлена ​​двумя или более строками? - PullRequest
0 голосов
/ 05 апреля 2019

В бухгалтерском учете набор данных, представляющий транзакции, называется «Главной книгой» и принимает следующий вид:

Simplified Data Example

Обратите внимание, что "журнал", т. Е. Транзакция, состоит из двух позиций. Например. Транзакция (номер журнала) 1 состоит из двух строк. Получение наличных и доходов. Компании могут также иметь транзакции (журналы), которые могут состоять из 3-х позиций или даже больше.

Сначала мне нужно очистить данные, чтобы в каждом журнале была только одна позиция? То есть очистить вышеперечисленные 8 строк в 4.

Существуют ли какие-либо алгоритмы машинного обучения на python, которые позволят мне кластеризовать вышеуказанные данные без дальнейшей манипуляции?

Целью этого является обнаружение аномалий в данных транзакций. Я не знаю, как выглядят аномалии, так что это должно быть обучение без присмотра.

1 Ответ

0 голосов
/ 05 апреля 2019

Используйте гауссиан в каждом измерении данных, чтобы определить, что является аномалией. Среднее значение и дисперсия отклоняются для каждого измерения, и если значение нового элемента данных в этом измерении ниже порогового значения, оно считается выбросом. Это создает один гауссов на измерение. Вы можете использовать здесь некоторые функции, а не просто подгонять гауссианов к необработанным данным.

Если объекты выглядят не по-гауссовски (построите их гистограмму), используйте преобразования данных, такие как log (x) или sqrt (x), чтобы изменить их, пока они не будут выглядеть лучше.

Используйте обнаружение аномалий, если контролируемое обучение недоступно, или если вы хотите найти новые, ранее невидимые аномалии (например, отказ силовой установки или кого-то, кто действует подозрительно, а не мужчина или женщина)

Анализ ошибок: однако, что если p (x), вероятность того, что пример не является аномалией, велика для всех примеров? Добавьте другое измерение, и надеюсь, что это поможет показать аномалию. Вы можете создать это измерение, комбинируя некоторые другие.

Чтобы немного больше подогнать гауссов к форме ваших данных, вы можете сделать их многомерными. Затем он принимает матричное среднее и дисперсию, и вы можете изменять параметры, чтобы изменить его форму. Он также покажет корреляции функций, если ваши функции не все независимы.

https://stats.stackexchange.com/questions/368618/multivariate-gaussian-distribution

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...