Как найти похожие фразы в NLP? - PullRequest
0 голосов
/ 27 октября 2018

Есть ли способ идентифицировать похожие фразы?Некоторые предлагают использовать основанные на шаблонах подходы, например, X as Y выражения:

Усэйн Болт как Король Спринта

Ливерпуль как Красные

1 Ответ

0 голосов
/ 28 октября 2018

Есть много методов, чтобы найти альтернативные имена для данного объекта, используя шаблоны, такие как:

  • X also known as Y
  • X also titled as Y

и сканирование больших коллекций документов (например, статей из Википедии или газетных статей) - один из способов сделать это.

Существуют и другие альтернативы, я помню, как я использую структуру связей Википедии, например, путем изучения ссылок перенаправления между статьями. Вы можете скачать файл со списком перенаправлений отсюда: https://wiki.dbpedia.org/Downloads2015-04 и, исследуя файл, вы можете найти альтернативные имена / синонимы для сущностей, например ::

  • Kennedy_Centre -> John_F._Kennedy_Center_for_the_Performing_Arts>
  • Lord_Alton_of_Liverpool -> David_Alton,_Baron_Alton_of_Liverpool
  • Indiana_jones_2 -> Indiana_Jones_and_the_Temple_of_Doom

Еще одна вещь, которую вы можете сделать, это объединить эти два метода, например, искать сегменты текста, где встречаются и Indiana Jones, и Indiana_Jones_and_the_Temple_of_Doom, и они не находятся дальше друг от друга, чем, скажем, 4 или 5 токенов. Вы можете найти шаблоны, такие как also titled as, затем вы можете использовать эти шаблоны, чтобы найти больше синонимов / альтернативных имен.

...