Я пытаюсь создать алгоритм, который устанавливает некоторую релевантность веб-странице на основе ключевых слов, которые он находит на странице.
Я делаю это в данный момент:
Я установил некоторые слова и значение для них: "фильм" (10) , "кино" (6) , "актер" (5) и «Голливуд» (4) и выполните поиск в некоторых частях страницы, указав вес для каждой части и умножив вес слов.
Пример: слово "фильм" слово было найдено в URL (1.5) * 10 и в заголовке (2.5) * 10 = 40
Это мусор! Это моя первая попытка, и она возвращает некоторые релевантные результаты, но я не думаю, что релевантность, определяемая значением типа 244, 66, 30, 15, полезна.
Я хочу сделать что-то, находящееся в диапазоне от 0 до 1 или от 1 до 100.
Какой тип взвешивания для слов я могу использовать?
Помимо этого, есть готовые алгоритмы для установки некоторой релевантности HTML-страницы, основанные на таких вещах, как URL, ключевые слова, заголовок и т. Д., Кроме основного контента?
РЕДАКТИРОВАТЬ 1 : Все это можно перестроить, веса являются случайными, я хочу использовать некоторые краткие веса, а не числа Рэмдона для представления веса, такие как 10, 5 и 3.
Что-то вроде: low importance = 1
, medium importance = 2
, high importante = 4
, deterministic importance = 8
.
Title > Link Part of URL > Domain > Keywords
movie > cinema> actor > hollywood
РЕДАКТИРОВАТЬ 2: В данный момент я хочу проанализировать релевантность страницы для слов, исключая body content
страницы. Я включу в анализ домен, часть ссылки, URL, заголовок, ключевые слова (и другую метаинформацию, которую я считаю полезной).
Причина этого в том, что содержимое HTML грязное. Я могу найти много слов, таких как «фильм», в меню и рекламных объявлениях, но основное содержание страницы не содержит ничего относящегося к теме.
Другая причина заключается в том, что на некоторых страницах есть метаинформация, указывающая, что на страницах содержится информация о фильме, а основного контента нет. Пример: страница, которая содержит сюжет фильма, рассказывающий историю, персонажей и т. Д., Но не содержит в этом тексте ничего, что может указывать на то, что речь идет о фильме, только метаинформация страницы.
Позже, после запуска анализа релевантности на странице HTML, я проведу анализ релевантности для содержимого (отфильтрованного) отдельно.