Я полагаю, вы пытаетесь классифицировать документы, что является хорошо изученной темой.
http://en.wikipedia.org/wiki/Document_classification
Вы увидите значительный список множества различных методов. Но предложить какую-либо одну из них (или нейронные сети или тому подобное) до определения «тенденций», как вы их называете, означает преждевременное предложение. Я бы порекомендовал изучить «классификацию веб-документов» или тому подобное. Это, очевидно, значительная часть классификации документов, и если у вас есть доступ к академическим журналам, есть много непонятных статей для вашего удовольствия.
Я также нашел твою идею в качестве домашнего задания - возможно, если ты особенно смел, ты мог бы связаться с профессором.
http://uhaweb.hartford.edu/compsci/ccli/wdc.htm
Наконец, я считаю, что это доступный (если странно отформатированный) веб-сайт, на котором есть общее и, возможно, устаревшее обсуждение:
http://www.webology.ir/2008/v5n1/a52.html
Боюсь, я не очень хорошо разбираюсь в этой теме, поэтому самое лучшее, что я мог сделать, - это сказать вам ключевое слово «классификация документов» и быстро найти информацию. Однако, если бы я захотел поиграть с этой концепцией, я думаю, просто поиск рейтинга определенных ключевых слов - это достойный стартовый «тренд». («Продажа», «покупка» или «клиенты» - это тенденции для сайтов покупок, «мое», «мнение», «комментарий», для блогов и т. Д.)