Разница между энтропией и другими мерами нечистоты, а на самом деле часто разница между теоретико-информационными подходами в машинном обучении и другими подходами заключается в том, что математически доказано, что энтропия охватывает концепцию «информации».Существует много классификационных теорем (теоремы, которые доказывают, что конкретная функция или математический объект является единственным объектом, удовлетворяющим набору критериев) для энтропийных мер, которые формализуют философские аргументы, оправдывающие их значение как меры «информации».
Контрастностьэто с другими подходами (особенно статистическими методами), которые выбраны не для их философского обоснования, но прежде всего для их эмпирического обоснования - то есть они, кажется, хорошо работают в экспериментах.Причина, по которой они работают хорошо, заключается в том, что они содержат дополнительные допущения, которые могут иметь место во время эксперимента.
В практическом плане это означает, что меры энтропии (A) не могут переопределяться при правильном использовании, поскольку они свободны от каких-либо предположений о данных, (B) с большей вероятностью будут работать лучше, чем случайные, потому что они обобщаютдля любого набора данных, но (C) производительность для определенных наборов данных может быть не такой хорошей, как меры, которые принимают допущения.
При принятии решения о том, какие меры использовать в машинном обучении, оно часто сводится к долгосрочному или краткосрочномувыгоды и ремонтопригодность.Измерения энтропии часто работают в долгосрочной перспективе по (A) и (B), и если что-то идет не так, проще отследить и объяснить, почему (например, ошибка с получением обучающих данных).Другие подходы (C) могут дать кратковременные выгоды, но если они перестанут работать, их будет очень сложно отличить, скажем, ошибка в инфраструктуре с подлинным изменением данных, когда предположения больше не выполняются.
Классическим примером, когда модели внезапно перестали работать, является мировой финансовый кризис.Банкиры получили бонусы за краткосрочную прибыль, поэтому они написали статистические модели, которые хорошо работали бы в краткосрочной перспективе и в значительной степени игнорировали теоретико-информационные модели.