Повышение точности прогноза в Байесовской Причинной Сети - PullRequest
0 голосов
/ 02 апреля 2020

Я бы хотел определить причины неожиданного исхода (или анамолии) в термодинамическом c процессе. У меня есть непрерывные данные о связанных переменных и пытаюсь использовать «Байесовскую сеть (BN)» для определения причинно-следственных связей. Для этой цели я использовал библиотеку с именем ' Causalnex ' в Python.

Я следовал учебному разделу этой библиотеки, чтобы построить модель DAG, BN, и все отлично работает до шаг предсказаний. Точность прогнозирования для классов меньшинства / меньшего большинства имеет точность около 60-70% (80-90% с SMOTE / SMOTETomek и определенным случайным состоянием), тогда как ожидается стабильная точность более 90%. Я реализовал следующие этапы предварительной обработки данных:

  1. Обеспечение отсутствия отсутствующих значений / значений NaN
  2. Дискретность (поддерживается только библиотекой)
  3. SMOTE / SMOTETomek для балансировка данных
  4. Различные комбинации поезд / тестовый размер

Я изо всех сил пытаюсь выяснить способы оптимизации модели. Я не смог найти какой-либо вспомогательный материал в Inte rnet для того же самого.

Существуют ли какие-либо руководящие указания или «передовые практики» в отношении методов предварительной обработки данных и требований к набору данных, которые особенно подходят для этой модели библиотеки / BN? Не могли бы вы предложить какие-либо методы устранения неполадок, чтобы определить причины низкой точности / метрик? Возможно, неправильно понятая причинно-следственная связь между узлами в DAG вызывает посредственную точность?

Любые идеи / литература / другие подходящие библиотеки по этому поводу были бы очень полезны! Заранее спасибо.

PS: я новичок в области статистики, но готов учиться, экспериментировать и учиться на опыте.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...