Как определяются словари для тематических сканеров? - PullRequest
1 голос
/ 08 мая 2011

Мне интересно, как лучше определить словарь для расчета релевантности конкретного сайта. По крайней мере, словари со словами кажутся важным методом измерения релевантности для новых сайтов, найденных по ссылкам (например, если сайт связан с ссылками, но не содержит слов о футболе, это, вероятно, не имеет значения для моего сканера по футболу).

Я пришел к следующим идеям, но у всех них есть серьезные недостатки:

  • Написать словарь от руки -> вы можете забыть много слов, и это очень много времени
  • Возьмите самые важные слова с первого сайта в качестве словаря -> многие слова, вероятно, будут отсутствовать
  • Возьмите самые важные слова на всех веб-сайтах в качестве записей в словаре и оцените их по релевантности (например, веб-сайт, который имеет отношение только к 0,4, не окажет такого большого влияния на словарь, как веб-сайт, который имеет отношение к 0,8) -> кажется довольно сложным и может привести к неожиданным результатам

Последний метод кажется мне лучшим, но, может быть, есть лучшие и более распространенные методы?

1 Ответ

1 голос
/ 08 мая 2011

Я бы порекомендовал вам создать словарь общих слов из списка известных сайтов. Предположим, у вас есть 100 сайтов, и вы знаете , что все они говорят о футболе. Вы можете создавать униграммы и биграммы (или n-граммы) карт контента и использовать их в качестве базовой линии, из которой вы измеряете некоторый тип «отклонения» в отношении каждого нового наблюдения, которое вы делаете. Обратите внимание, что вам придется удалить общие стоп-слова, чтобы исключить ненужные слова; на английском есть немало, вот список: http://www.ranks.nl/resources/stopwords.html

N-граммы - это частота слов или комбинаций слов. Unigrams создает карту, где ключ - это слово, а значение - номер вхождения для каждого слова. Биграммы обычно создаются путем объединения двух последовательных слов и использования их в качестве ключа, и так далее для триграмм и n-граммов.

Вы можете взять верхние n-граммы с ваших известных сайтов и сравнить их с верхними n-граммами сайта, который вы сейчас оцениваете. Чем больше они похожи, тем больше вероятность, что сайт имеет ту же тему.

...