Feature Selection - это процесс выбора «интересных» функций из вашего набора для дальнейшей обработки.
Частота функции - это просто частота, с которой появляется функция.
Получение информации, Максимальная энтропия и т. Д. - это методы взвешивания, в которых используется частота элемента, что, в свою очередь, позволяет выполнять выбор элемента.
Думайте об этом так:
Вы анализируете корпус и создаете матрицу термина / документа. Эта матрица начинается с подсчета терминов и того, в каком документе они появляются (простая частота).
Чтобы сделать эту матрицу более значимой, вы взвешиваете термины, основанные на некоторой функции, включая частоту (например, частота документа, инверсная по частоте, информационный прирост, максимальная энтропия). Теперь эта матрица содержит веса или важность каждого члена по отношению к другим членам в матрице.
Получив это, вы можете использовать выбор функций, чтобы сохранить только самые важные термины (если вы делаете такие вещи, как классификация или категоризация) и выполнить дальнейший анализ.