Как узнать, семантически ли документ в Интернете связан с каким-либо другим документом? - PullRequest
1 голос
/ 25 мая 2011

Мой вопрос здесь заключается в том, что с учетом document d1 on the web and a document d2 как мне сказать, что d1 и d2 семантически связаны. Существуют ли какие-либо API, которые могут выполнять некоторую обработку естественного языка, которая может дать мне подсказку о том, что d1, вероятно, связан с d2. Мне это нужно сильно и срочно. Пожалуйста, помогите !!

Ответы [ 3 ]

2 голосов
/ 25 мая 2011

Вы можете использовать специальные микроформаты. Подробнее на http://microformats.org/

Простой пример:

<a href="http://creativecommons.org/licenses/by/2.0/" rel="license">cc by 2.0</a>

Rel-License является одним из нескольких микроформатов. Добавляя rel = "license" к гиперссылке, страница указывает, что адрес этой гиперссылки является лицензией для текущей страницы.

1 голос
/ 25 мая 2011

Для семантически связанных документов вы можете использовать специальные словари, такие как SKOS, и связать их в онтологии.Или вы можете использовать - как уже упоминалось - микроформаты прямо в ваших документах.

Для обработки естественного языка существуют различные инструменты, такие как GATE, которые могут извлекать информацию.Но это не тривиальная задача.

Возможно, вы можете уточнить, что вы хотите сделать?Вы хотите определить, какие документы связаны?Или вы хотите, чтобы программное обеспечение выяснило, какие документы могут быть связаны?

0 голосов
/ 30 мая 2011

Вам нужно изучить " извлечение именованных сущностей ", то есть обработку на естественном языке, чтобы извлечь вероятные сущности, общие для обоих документов.Обычно это люди, места, события, времена, организации.

Взгляните на OpenCalais http://www.opencalais.com/ для некоторых реальных приложений такого типа технологий.

...