Поиск темы веб-страницы - PullRequest
       9

Поиск темы веб-страницы

2 голосов
/ 16 февраля 2012

Мне интересно найти тему или тему случайных веб-страниц и связать ее с сущностью в базе данных RDF, такой как dbpedia. Я задавался вопросом, есть ли какие-либо инструменты / библиотеки для этого или кто-то пытался сделать что-то подобное раньше?

Ответы [ 3 ]

1 голос
/ 20 февраля 2012

OpenLink Virtuoso делает это уже с мета-картриджами Sponger (RDFizer) для OpenCalais, Alchemy, Pingar и DBPedia Spotlight.То есть, вы кормите его страницей, он запрашивает вышеуказанные сайты для сущностей, он дает вам тройки на основе идентифицированных сущностей.

(Отказ от ответственности: я должен знать.)

1 голос
/ 03 июня 2012

Поиск темы веб-страницы, вероятно, наиболее близок к Автоматическое суммирование (см. Одноименную страницу Википедии). Одной из подзадач, используемых для этого, является извлечение ключевой фразы (KE). KE вернет подстроки (фразы) из входного текста, которые важны / заметны / относятся к этому текстовому элементу. Если вы предполагаете, что именованные объекты обычно являются ключом к теме вашего входного текста, то Распознавание именованных объектов (NER) будет другой возможной подзадачей для того, что вы хотите. NER вернет подстроки, которые являются именами сущностей, наряду с типом сущности.

Из вашего описания кажется, что вы ищете больше, чем просто KE или NER, поскольку упоминаете ссылку на базу знаний (KB), такую ​​как DBpedia. Инструмент под названием DBpedia Spotlight делает именно это. Вы можете настроить его так, чтобы он находил каждый ресурс DBpedia во входном тексте или только ключевые фразы, только именованные сущности и т. Д. Все это при подключении к DBpedia в конце. Проверьте это: http://spotlight.dbpedia.org

Существуют и другие инструменты, такие как AlchemiAPI, Zemanta, WikiMachine, Evri, HeadUp, Enrycher и т. Д. Но, насколько я знаю, DBpedia Spotlight - это единственный инструмент с открытым исходным кодом (Apache V2), который можно настраивать бесплатно. поведение распознавания и устранения неоднозначности слов. (Отказ от ответственности: я являюсь одним из создателей DBpedia Spotlight)

1 голос
/ 19 февраля 2012

То, что вам нужно - это инструмент распознавания именованных сущностей. Существует ряд бесплатных и коммерческих услуг, таких как Alchemy API , OpenCalais , Lupedia или Zemanta . Некоторые из моих коллег опубликовали в блогах о их опыте с этими услугами.

Для взаимосвязанной части вы обычно используете такие структуры, как Silk или LIMES ; очень скоро в облаке будет служба связывания , доступная через проект EC FP7 LATC. Отказ от ответственности: я являюсь координатором проекта LATC, и Silk / LIMES являются продуктами членов консорциума LATC.

...