Мне нужно реализовать «частоту обратных документов» в движке приложений Google.Я ищу предложения по повышению эффективности.Теперь я использую базовую процедуру:
при разборе веб-страницы. Каждую пару я сохраняю в хранилище данных, например,
for(String phrase : phrase_collection){
dataStore.put(phrase, domain);
}
, когда вычисляю IDF позже.Например,
for(String phrase : phrase_collection){
long count = dataStore.get(phrase).size();
}
Однако скорость неудовлетворительная и часто приводит к тайм-ауту 30 с.В этом сценарии у меня есть дополнительные проблемы,
-Много языка ввода (веб-страницы).Таким образом, фразы также на разных языках, что затрудняет кеширование.
- Разбор веб-страниц и ранжирование фраз также занимают много времени.Весь процесс похож на charset_detect -> language_detect -> parse по разным языкам -> ранжирование.
Всегда включен в GAE.
Я с нетерпением жду любых предложений!Заранее спасибо!