Для семантически связанных документов вы можете использовать специальные словари, такие как SKOS, и связать их в онтологии.Или вы можете использовать - как уже упоминалось - микроформаты прямо в ваших документах.
Для обработки естественного языка существуют различные инструменты, такие как GATE, которые могут извлекать информацию.Но это не тривиальная задача.
Возможно, вы можете уточнить, что вы хотите сделать?Вы хотите определить, какие документы связаны?Или вы хотите, чтобы программное обеспечение выяснило, какие документы могут быть связаны?