Цитата из оригинальной статьи:
Характеристики изоляции c iTrees позволяет им строить частичные модели и использовать подвыборку в такой степени, которая невозможна в существующих методах. Поскольку большая часть iTree, которая изолирует нормальные точки, не требуется для обнаружения аномалий; не нужно строить . Небольшой размер выборки дает лучшие деревья, потому что эффекты затопления и маскирования уменьшаются.
Судя по вашему вопросу, у меня такое ощущение, что вы путаете размер набора данных и размер выборки, которую вы возьми из него построить iTree. Лес изоляции может обрабатывать очень большие наборы данных. Он работает лучше, когда делает выборку. центр. Есть мешающие нормальные точки, окружающие кластеры аномалий, и кластеры аномалий более плотные, чем нормальные точки в этой выборке из 4096 экземпляров. На рисунке 4 (b) показана подвыборка из 128 экземпляров исходных данных. Кластеры аномалий четко идентифицируются в подвыборке. Эти нормальные экземпляры, окружающие два кластера аномалий, были удалены, и размер кластеров аномалий стал меньше, что упрощает их идентификацию. При использовании всего образца iForest сообщает, что AU C составляет 0,67. При использовании размера подвыборки 128, iForest достигает AU C, равного 0,91.
Isolation forest is not a perfect algorithm and needs parameter tuning for your specific data. It might even perform poorly on some datasets. If you wish to consider other methods, Коэффициент локальных выбросов также включен в sklearn
. Вы также можете комбинировать несколько методов (ансамбль).
Здесь вы можете найти хорошее сравнение различных методов.