Как я могу оценить инструмент суммирования текста? - PullRequest
4 голосов
/ 27 марта 2012

Я написал систему, которая суммирует длинный документ, содержащий тысячи слов.Существуют ли какие-либо нормы относительно того, как такая система должна оцениваться в контексте опроса пользователей?

Короче говоря, существует ли метрика для оценки времени, когда мой инструмент спас человека?В настоящее время я думал об использовании (Время, затраченное на чтение оригинального документа / Время, затраченное на чтение сводки), как способ определения сэкономленного времени, но есть ли лучшие показатели?

В настоящее время я спрашиваюУ пользователя субъективные вопросы по поводу точности резюме.

Ответы [ 5 ]

4 голосов
/ 28 августа 2016

В общем:

Bleu измеряет точность : сколько слов (и / или n-грамм) в сгенерированных машиной сводках появилось в справочнике человекаитоги.

Руж измерение напоминания : сколько слов (и / или n-грамм) в справочных резюме человека появилось в сгенерированных машиной резюме.

Естественно - эти результаты дополняют друг друга, как это часто бывает в случае точности с отзывом.Если у вас будет много слов / нграмм из результатов системы, появившихся в человеческих ссылках, у вас будет высокий Bleu, и если у вас будет много слов / нграмм из ссылок человека, появившихся в системных результатах, у вас будет высокий Руж.

Есть нечто, называемое штраф за краткость , что очень важно и уже добавлено в стандартные реализации Bleu.Он наказывает системные результаты, которые короче, чем общая длина ссылки (подробнее об этом здесь ).Это дополняет поведение метрики n-граммы, которое фактически штрафует дольше, чем эталонные результаты, так как знаменатель растет, чем дольше результат системы.

Вы также можете реализовать нечто подобное для Rouge, но на этот раз штрафы системы приводят кдлиннее, чем общая длина ссылки, что в противном случае позволило бы им получить искусственно более высокие оценки по шкале Руж (поскольку чем длиннее результат, тем выше вероятность того, что вы попадете в какое-либо слово, встречающееся в ссылках).В Rouge мы делим на длину человеческих ссылок, поэтому нам потребовалось бы дополнительное наказание за более длинные системные результаты, которые могли бы искусственно повысить их показатель Rouge.

Наконец, вы можете использовать F1 меру чтобы метрики работали вместе: F1 = 2 * (Блю * Руж) / (Блю + Руж)

4 голосов
/ 23 апреля 2014

Исторически сложилось, что системы суммирования часто оценивались путем сравнения с созданными человеком справочными резюме.В некоторых случаях человек суммирует составление резюме, выбирая соответствующие предложения из исходного документа;в других, резюме пишутся от руки с нуля.

Эти два метода аналогичны двум основным категориям систем автоматического суммирования - экстрактивное или абстрагирующее (более подробная информация доступна в Wikipedia ).

Одним стандартным инструментом является Rouge , сценарий (или набор сценариев; я не могу вспомнить это случайно), который вычисляет перекрытие по n-граммам между автоматическим и справочным резюме.Грубый может опционально вычислить перекрытие, позволяющее вставлять или удалять слова между двумя сводками (например, если разрешить пропуск из 2 слов, «установленные насосы» будут засчитываться как совпадение с «установленными неисправными насосами для защиты от затопления»).

Насколько я понимаю, баллы Ружа по n-граммам были довольно хорошо коррелированы с человеческой оценкой суммирования до некоторого уровня точности, но это соотношение может нарушиться по мере улучшения качества суммирования.То есть, что за пределами некоторого порога качества, оценки, которые оцениваются людьми лучше, могут оцениваться аналогично или превосходить оценки, оцениваемые ниже.Тем не менее, оценка Руж может быть полезным первым сравнением при сравнении двух систем суммирования кандидатов или способом автоматизации регрессионного тестирования и отсеивания серьезных регрессий перед передачей системы людям-оценщикам.

Ваш подход сбора человеческих сужденийэто, вероятно, лучшая оценка, если вы можете позволить себе время / денежные затраты.Чтобы добавить немного строгости этому процессу, вы можете взглянуть на критерии оценки, использованные в недавних задачах суммирования (см. Различные конференции, упомянутые @John Lehmann).Таблицы результатов, используемые этими оценщиками, могут помочь в проведении вашей собственной оценки.

4 голосов
/ 27 марта 2012

Я не уверен насчет оценки времени, но в отношении точности вы можете обратиться к литературе по теме Автоматическое суммирование документов .Первичной оценкой была конференция «Понимание документов» ( DUC ) до тех пор, пока задача «Суммирование» не была перенесена в Конференцию по анализу текста ( TAC ) в 2008 году. Большинство из них сосредоточены на расширенных темах обобщения, таких как-документы, многоязычные и обновленные сводки.

Вы можете найти рекомендации по оценке для каждого из этих событий, размещенные в Интернете.Задачи обобщения отдельных документов см. В DUC 2002-2004.

Или вы можете обратиться к разделу оценки ADS в Википедии.

0 голосов
/ 22 марта 2015

Когда вы оцениваете автоматическую систему суммирования, вы обычно смотрите на содержание резюме, а не на время.

Ваша идея:

(Время, затраченное на чтениеОригинальный документ / Время, необходимое для прочтения сводки)

Не очень много говорит о вашей системе суммирования, она действительно дает вам только представление о степени сжатия вашей системы (т.е. сводка равна 10% от исходного документа).

Возможно, вы захотите учесть, сколько времени вашей системе требуется для подведения итогов документа по сравнению со временем, которое потребуется человеку (система: 2 с, человек: 10 минут).

0 голосов
/ 23 апреля 2013

Существует множество параметров, по которым вы можете оценить свою систему суммирования.как точность = количество важных предложений / общее количество суммированных предложений.Напоминание = Общее количество важных предложений Извлечено / Общее количество важных предложений.

F Score = 2 * (Точность * Отзыв / Точность + Отзыв) Сжатый коэффициент = Общее количество слов в резюме / Общее количество словв оригинальном документе.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...