Я бы хотел определить причины неожиданного исхода (или анамолии) в термодинамическом c процессе. У меня есть непрерывные данные о связанных переменных и пытаюсь использовать «Байесовскую сеть (BN)» для определения причинно-следственных связей. Для этой цели я использовал библиотеку с именем ' Causalnex ' в Python.
Я следовал учебному разделу этой библиотеки, чтобы построить модель DAG, BN, и все отлично работает до шаг предсказаний. Точность прогнозирования для классов меньшинства / меньшего большинства имеет точность около 60-70% (80-90% с SMOTE / SMOTETomek и определенным случайным состоянием), тогда как ожидается стабильная точность более 90%. Я реализовал следующие этапы предварительной обработки данных:
- Обеспечение отсутствия отсутствующих значений / значений NaN
- Дискретность (поддерживается только библиотекой)
- SMOTE / SMOTETomek для балансировка данных
- Различные комбинации поезд / тестовый размер
Я изо всех сил пытаюсь выяснить способы оптимизации модели. Я не смог найти какой-либо вспомогательный материал в Inte rnet для того же самого.
Существуют ли какие-либо руководящие указания или «передовые практики» в отношении методов предварительной обработки данных и требований к набору данных, которые особенно подходят для этой модели библиотеки / BN? Не могли бы вы предложить какие-либо методы устранения неполадок, чтобы определить причины низкой точности / метрик? Возможно, неправильно понятая причинно-следственная связь между узлами в DAG вызывает посредственную точность?
Любые идеи / литература / другие подходящие библиотеки по этому поводу были бы очень полезны! Заранее спасибо.
PS: я новичок в области статистики, но готов учиться, экспериментировать и учиться на опыте.