Поиск темы веб-страницы, вероятно, наиболее близок к Автоматическое суммирование (см. Одноименную страницу Википедии). Одной из подзадач, используемых для этого, является извлечение ключевой фразы (KE). KE вернет подстроки (фразы) из входного текста, которые важны / заметны / относятся к этому текстовому элементу. Если вы предполагаете, что именованные объекты обычно являются ключом к теме вашего входного текста, то Распознавание именованных объектов (NER) будет другой возможной подзадачей для того, что вы хотите. NER вернет подстроки, которые являются именами сущностей, наряду с типом сущности.
Из вашего описания кажется, что вы ищете больше, чем просто KE или NER, поскольку упоминаете ссылку на базу знаний (KB), такую как DBpedia. Инструмент под названием DBpedia Spotlight делает именно это. Вы можете настроить его так, чтобы он находил каждый ресурс DBpedia во входном тексте или только ключевые фразы, только именованные сущности и т. Д. Все это при подключении к DBpedia в конце. Проверьте это: http://spotlight.dbpedia.org
Существуют и другие инструменты, такие как AlchemiAPI, Zemanta, WikiMachine, Evri, HeadUp, Enrycher и т. Д. Но, насколько я знаю, DBpedia Spotlight - это единственный инструмент с открытым исходным кодом (Apache V2), который можно настраивать бесплатно. поведение распознавания и устранения неоднозначности слов.
(Отказ от ответственности: я являюсь одним из создателей DBpedia Spotlight)