Алгоритм ID3 - это алгоритм генерации дерева решений без подкрепления со следующими свойствами :
- Может работать только с именными атрибутами.
- Не удается обработать пропущенные значения.
- Пустые листья могут привести к несекретным экземплярам.
Набор данных Mushroom состоит из 22 номинальных атрибутов и удовлетворяет первому условию, однако после проверки вы найдете атрибут 'stalk-root' , имеющий 2480 (31%) пропущенных значений. По этой причине в Weka по умолчанию он недоступен для выбора при классификации.
Чтобы исправить это, вы можете перейти к этим двум решениям.
Вы можете удалить атрибут.
- Откройте файл .arff, выберите атрибут stalk-root на вкладке «Атрибуты» и нажмите «Удалить».
- Теперь вы увидите, что ID3 доступен. Я смог получить F-рейтинг 1,0.

Вы можете использовать методы для обработки пропущенных значений.
- В ситуациях, когда вы не хотите терять информацию (в данном случае это атрибут «stalk-root»), вы можете использовать следующие методы :
- Используйте меру центральной тенденции для атрибута, такую как среднее значение, медиана, чтобы заменить пустые значения.
- Используйте атрибут среднее или медиану для всех выборок, принадлежащих к тому же классу, что и данный кортеж.
- Используйте наиболее вероятное значение для заполнения пропущенного значения, используя инструменты на основе логического вывода, используя байесовский формализм.