Эта проблема почти идентична Байесовской фильтрации спама и уже написанным для этого инструментам можно просто научиться распознавать в соответствии с вашими критериями.
добавлено в ответ на комментарий :
Итак, как вы теперь разбиваете поток на бины?Если у вас уже есть набор отдельных статей, просто введите их в классификатор.Байесовские классификаторы являются способом нечеткого сопоставления контента в контексте и могут классифицировать все, от спама до нуклеотидов и астрономических спектральных категорий.
Вы можете использовать менее стохастические методы (например, Левенштейн), но в какой-то момент вы должны описать разницу между попаданиями и промахами.Прелесть байесовских методов, особенно если у вас в руках уже есть сегрегированный корпус, заключается в том, что вам на самом деле не нужно четко знать, как вы классифицируете.