Я пытаюсь использовать OpenAmplify API для оценки содержимого URI.Дело в том, чтобы выделить темы, которые действительно имеют отношение к статье.К сожалению, тематический анализ, который я возвращаю, таков:
- Огромный и
- Разнообразный
Ни то, ни другое качество не очень полезно для того, что япытаясь сделать это, потому что отношение сигнал / шум сильно смещено в сторону шума.Я анализирую веб-контент, поэтому в нем задействовано определенное количество (возможно, большое) нерелевантного контента (реклама и т. Д.).Я понимаю.
Тем не менее, многие из возвращаемых тем либо бесполезны (совершенно бессмысленные, даже не слова), не имеют значения (например, откуда это взялось?) Или слишком гранулированы, чтобы дать какое-либо значение или понимание.Я, вероятно, могу отфильтровать большую часть этого шума, используя значение , мм, возвращаемое для каждого домена, субдомена, темы и т. Д., Но я действительно не знаю, что это значит.
Конечно, я понимаю, что значение - это мера "значимости слова в тексте", но само число кажется совершенно произвольным, так что я не могу сказать что-то вроде«игнорировать любые термины со значением меньше 50» и имеют ли они какое-либо реальное значение.
Существуют ли какие-либо критерии диапазона, которые я могу использовать, чтобы помочь мне понять, как использовать оценку значения темы в качестве порога фильтрации?Кроме того, есть ли другое поле, которое я должен использовать для такой фильтрации?
Спасибо за вашу помощь.