Это горячая тема исследования в области компьютерной лингвистики. Мелкий подход, использующий байесовскую фильтрацию, вряд ли даст идеальные результаты, но вам, вероятно, все равно не нужны идеальные результаты.
В CL правило 80-20 быстро становится правилом 95-5, поэтому, если вы довольны тем, чего можете достичь с помощью мелких методов, пропустите этот ответ.
Если вы хотите узнать, сможете ли вы улучшить свои результаты, попробуйте найти более подходящие ресурсы. Задача, на которую вы ссылаетесь, называется «Обобщение текста» в исследовательском сообществе, и у нее есть собственная веб-страница , которая безнадежно устарела. Mani and Maybury (1999) , вероятно, хороший обзор (я сам его не читал), но также довольно устаревший. Более поздней является диссертация Мартина Хасселса по этой теме, а также весьма исчерпывающая информация, в том числе не зависящие от языка (читай: статистические, т.е. мелкие) методы.
Как всегда, Google также сможет вам помочь. Просто найдите текстовое резюме .