Есть много методов, чтобы найти альтернативные имена для данного объекта,
используя шаблоны, такие как:
X also known as Y
X also titled as Y
и сканирование больших коллекций документов (например, статей из Википедии или газетных статей) - один из способов сделать это.
Существуют и другие альтернативы, я помню, как я использую структуру связей Википедии, например, путем изучения ссылок перенаправления между статьями. Вы можете скачать файл со списком перенаправлений отсюда: https://wiki.dbpedia.org/Downloads2015-04 и, исследуя файл, вы можете найти альтернативные имена / синонимы для сущностей, например ::
Kennedy_Centre -> John_F._Kennedy_Center_for_the_Performing_Arts>
Lord_Alton_of_Liverpool -> David_Alton,_Baron_Alton_of_Liverpool
Indiana_jones_2 -> Indiana_Jones_and_the_Temple_of_Doom
Еще одна вещь, которую вы можете сделать, это объединить эти два метода, например, искать сегменты текста, где встречаются и Indiana Jones
, и Indiana_Jones_and_the_Temple_of_Doom
, и они не находятся дальше друг от друга, чем, скажем, 4 или 5 токенов. Вы можете найти шаблоны, такие как also titled as
, затем вы можете использовать эти шаблоны, чтобы найти больше синонимов / альтернативных имен.