Время выполнения TextRank - PullRequest
0 голосов
/ 07 января 2012

Я реализовал textrank в Java, но это выглядит довольно медленно. Кто-нибудь знает о его ожидаемой производительности?

Если не ожидается, что он будет медленным , может ли проблема быть любой из следующих:

1) Казалось, что не было способа создать ребро и добавить к нему вес одновременно во время JGraphT, поэтому я вычисляю вес и, если он> 0, я добавляю ребро. Позже я пересчитываю веса, чтобы добавить их во время цикла по краям. Это ужасная идея?

2) Я использую JGraphT. Это медленная библиотека?

3) Что-нибудь еще, что я мог сделать, чтобы сделать это быстрее?

1 Ответ

1 голос
/ 07 января 2012

Это зависит от того, что вы подразумеваете под "довольно медленно".Немного погуглив нашёл этот абзац:

"Мы рассчитали общее время для RAKE и TextRank (в среднем за 100 итераций) для извлечения ключевых слов из набора тестирования Inspec из 500 тезисов, послетезисы читаются из файлов и загружаются в память. RAKE извлекает ключевые слова из 500 тезисов за 160 миллисекунд. TextRank извлекает ключевые слова за 1002 миллисекунды, более чем в 6 раз больше времени RAKE. "

(См. http://www.scribd.com/doc/51398390/11/Evaluating-ef%EF%AC%81ciency для контекста.)

Итак, из этого я делаю вывод, что приличная реализация TextRank должна быть способна извлекать ключевые слова из ~ 500 рефератов за ~ 1 секунду.

...