Я пытаюсь разработать метод, который сможет классифицировать заданное количество английских слов на 2 набора - «редкий» и «общий» - ссылка на то, насколько они используются в языке.
Количество слов, которые я хотел бы классифицировать, ограничено - в настоящее время составляет около 10 000 и включает в себя все, начиная от статей и заканчивая собственными существительными, которые можно заимствовать из других языков (и, таким образом, классифицировать как «редкие»). Я провел некоторый частотный анализ внутри корпуса, и у меня есть распределение этих слов (от 1 использования до 100 вершин).
Моя интуиция для такой системы состояла в том, чтобы использовать списки слов (такие как корпус частоты слова BNC, сеть слов, частота внутреннего корпуса) и назначать веса для его появления в одном из них.
Например, слово, имеющее частоту среднего уровня в корпусе (скажем, 50), но фигурирующее в списке слов W - может рассматриваться как распространенное, поскольку оно является одним из наиболее распространенных во всем языке. Мой вопрос был - каков наилучший способ создать взвешенную оценку для чего-то подобного? Должен ли я идти дискретно или непрерывно? В любом случае, какая система классификации подойдет для этого лучше всего?
Или вы рекомендуете альтернативный метод?
Спасибо!
EDIT:
Чтобы ответить на вопрос Винко о предполагаемом использовании классификации -
Эти слова являются токенизированными из фразы (например, название книги) - и цель состоит в том, чтобы выяснить стратегию генерации строки поискового запроса для фразы, поиска в текстовом корпусе. Строка запроса может поддерживать несколько параметров, таких как близость и т. Д., Поэтому, если слово является общим, эти параметры можно настроить.
Чтобы ответить на вопрос Игоря -
(1) Насколько велик ваш корпус?
В настоящее время список ограничен 10 000 токенов, но это всего лишь тренировочный набор. Когда я начну тестировать его на тестовом наборе, он может возрасти до нескольких сотен тысяч.
2) У вас есть ожидаемая доля общих / редких слов в корпусе?
Хм, нет.