У меня есть небольшая проблема с моим проектом для университета.
Я должен осуществить классификацию документов с использованием генетического алгоритма.
Я посмотрел на этот пример и (скажем так) понял принципы генетических алгоритмов, но я не уверен, как они могут быть реализованы в классификации документов , Не могу понять функцию фитнеса.
Вот то, о чем я до сих пор думал (это, вероятно, совершенно неправильно ...)
Примите, что у меня есть категории, и каждая категория описывается некоторыми ключевыми словами.
Разбить файл на слова.
Создайте первое заполнение из массивов (например, 100 массивов, но это будет зависеть от размера файла), заполненных случайными словами из файла.
1:
Выберите лучшую категорию для каждого ребенка в популяции (подсчитав в нем ключевые слова).
Кроссовер на каждые 2 ребенка в популяции (новый массив, содержащий половину каждого ребенка) - «кроссовер»
Заполните остальных детей, оставшихся от кроссовера, случайными неиспользованными словами из файла - «эволюция ??»
Заменить случайные слова в случайном ребенке из новой популяции случайным словом из файла (используется или нет) - «мутация»
Скопируйте лучшие результаты для нового населения.
Переходите к 1, пока не будет достигнут некоторый лимит населения или не будет найдена некоторая категория достаточное количество раз
Я не уверен, что это правильно, и буду рад получить несколько советов, ребята.
Очень ценю это!