Оценка атрибута «Значение» - PullRequest
0 голосов
/ 06 июля 2010

Я пытаюсь использовать OpenAmplify API для оценки содержимого URI.Дело в том, чтобы выделить темы, которые действительно имеют отношение к статье.К сожалению, тематический анализ, который я возвращаю, таков:

  1. Огромный и
  2. Разнообразный

Ни то, ни другое качество не очень полезно для того, что япытаясь сделать это, потому что отношение сигнал / шум сильно смещено в сторону шума.Я анализирую веб-контент, поэтому в нем задействовано определенное количество (возможно, большое) нерелевантного контента (реклама и т. Д.).Я понимаю.

Тем не менее, многие из возвращаемых тем либо бесполезны (совершенно бессмысленные, даже не слова), не имеют значения (например, откуда это взялось?) Или слишком гранулированы, чтобы дать какое-либо значение или понимание.Я, вероятно, могу отфильтровать большую часть этого шума, используя значение , мм, возвращаемое для каждого домена, субдомена, темы и т. Д., Но я действительно не знаю, что это значит.

Конечно, я понимаю, что значение - это мера "значимости слова в тексте", но само число кажется совершенно произвольным, так что я не могу сказать что-то вроде«игнорировать любые термины со значением меньше 50» и имеют ли они какое-либо реальное значение.

Существуют ли какие-либо критерии диапазона, которые я могу использовать, чтобы помочь мне понять, как использовать оценку значения темы в качестве порога фильтрации?Кроме того, есть ли другое поле, которое я должен использовать для такой фильтрации?

Спасибо за вашу помощь.

1 Ответ

0 голосов
/ 10 июля 2010

Из других каналов я узнал, что атрибут value не может быть оценен так, как я надеялся.Это означает разные вещи для разных сигналов, и ни одно из них не определено таким образом, чтобы иметь значение для такого рода требований.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...