Предложение означает сходство и частоту - PullRequest
0 голосов
/ 02 мая 2018

У меня есть набор дословных / предложений, и я пытаюсь сделать следующее: если два предложения имеют одинаковое значение, эти предложения должны быть заменены первоначальными, а позже я должен взять частота таких предложений.

Есть ли способ сделать это в NLTK? Любые предложения в этом отношении приветствуются и приветствуются. Я ищу подход НЛП. Спасибо

Ответы [ 2 ]

0 голосов
/ 02 мая 2018

Я хотел бы рассмотреть возможность использования некоторых более современных идей для встраивания слов / документов для сходства предложений, таких как:

С одной стороны, вложения предложений могут быть использованы для простого сравнения предложений, с другой стороны, у вас есть вложения слов, которые можно усреднять / суммировать, чтобы получить вложение всего предложения. Для сравнения векторов предложений можно использовать такие метрики, как косинусное сходство.

0 голосов
/ 02 мая 2018

Я нашел несколько статей, которые могли бы дать вам несколько идей о том, как решить эту проблему. Они используют WordNet, который представляет собой корпус, который можно использовать для проверки сходства слов, и он доступен на NLTK:

  1. Корли, Кортни и Рада Михальча. «Измерение семантического сходства текстов». Материалы семинара ACL по эмпирическому моделированию семантической эквивалентности и привязанности. Ассоциация компьютерной лингвистики, 2005. -> переводит межсловное сходство на текстовом уровне, и я считаю, что вы можете адаптировать его к предложениям. (https://aclanthology.info/pdf/W/W05/W05-1203.pdf)

  2. Хонек, Ричард П. "Семантическое сходство между предложениями". Журнал психолингвистических исследований 2.2 (1973): 137-151. -> Вот еще одна статья, которая вычисляет оценки сходства между предложениями.

Я только просмотрел две статьи, но похоже, что первая статья использует методы синтаксического и семантического сходства последовательно, тогда как вторая использует их параллельно.

  1. Миллер, Джордж А. и Уолтер Г. Чарльз. «Контекстуальные корреляты семантического сходства». Языковые и когнитивные процессы 6.1 (1991): 1-28. -> Это документ по лингвистике, который может дать вам лучшее понимание того, как сравнивать семантическое сходство предложений в случае, если первые два метода вам не подходят, и вам нужно найти собственное решение.

Удачи и надеюсь, что это поможет!

...