Сократите текст и оставьте только важные предложения - PullRequest
4 голосов
/ 13 апреля 2009

Немецкий сайт nandoo.net предлагает возможность сократить новостную статью. Если вы измените процентное значение с помощью ползунка, текст изменится, а некоторые предложения будут опущены.

Вы можете увидеть это в действии здесь:

http://www.nandoo.net/read/article/299925/

Новостная статья находится слева и помечены тегами. Слайдер находится в верхней части второго столбца. Чем больше вы перемещаете ползунок влево, тем короче становится текст.

Как вы можете предложить что-то подобное? Существуют ли алгоритмы, которые вы можете использовать для этого?

Моя идея заключалась в том, что их алгоритм подсчитывает количество тегов и существительных в предложении. Тогда предложения с наименьшим количеством тегов / существительных опускаются.

Может ли это быть правдой? Или у тебя есть другая идея?

Надеюсь, вы мне поможете. Заранее спасибо!

Ответы [ 2 ]

3 голосов
/ 06 мая 2009

Это горячая тема исследования в области компьютерной лингвистики. Мелкий подход, использующий байесовскую фильтрацию, вряд ли даст идеальные результаты, но вам, вероятно, все равно не нужны идеальные результаты.

В CL правило 80-20 быстро становится правилом 95-5, поэтому, если вы довольны тем, чего можете достичь с помощью мелких методов, пропустите этот ответ.

Если вы хотите узнать, сможете ли вы улучшить свои результаты, попробуйте найти более подходящие ресурсы. Задача, на которую вы ссылаетесь, называется «Обобщение текста» в исследовательском сообществе, и у нее есть собственная веб-страница , которая безнадежно устарела. Mani and Maybury (1999) , вероятно, хороший обзор (я сам его не читал), но также довольно устаревший. Более поздней является диссертация Мартина Хасселса по этой теме, а также весьма исчерпывающая информация, в том числе не зависящие от языка (читай: статистические, т.е. мелкие) методы.

Как всегда, Google также сможет вам помочь. Просто найдите текстовое резюме .

2 голосов
/ 13 апреля 2009

Обычно вы хотите сохранить предложения, слова которых более уникальны для этой статьи.

То есть, чем более «обобщенно» предложение, тем меньше оно описывает эту конкретную статью.

Обычный способ сделать это - байесовский анализ, очень похожий на спам-фильтр. Сначала определите, какие слова во всей статье появляются чаще, чем вы ожидаете, а затем найдите предложения, содержащие эти слова.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...