Как выбрать предложения, похожие на мое предложение, сканируя весь сайт? - PullRequest
0 голосов
/ 11 мая 2018

Если я дам предложение, как вернуть к нему все похожие предложения?
Например:
Сколько времени займет собеседование?
Подобные предложения должны быть
1.Как долгоИнтервью длится.
2. Продолжительность интервью.

Как это сделать?
Один из способов, о котором я думаю, - это сканировать часто задаваемые вопросы о 30-40 веб-сайтах компаний и вставлять вопросы с помощью doc2vec, и я сохраню все подобные векторы в кластере.,

Есть ли лучший метод, чем этот?

Ответы [ 2 ]

0 голосов
/ 12 мая 2018

Как только у вас есть словосочетания - либо общий, повторно используемый из других мест, либо (лучше) кто-то обучил нашу вашу текстовую область - вы также можете использовать «Расстояние до словаря» (ОМУ), чтобы оценить сходство предложений (или других короткихтексты).Некоторые демонстрации показывают, что он действительно хорошо ранжирует предложения по одинаковому значению, даже если использует совсем другое слово.

Однако обратите внимание, что ОМУ рассчитывается относительно дорого по сравнению с простыми векторными расстояниями методов, которые дают каждому тексту один вектор, такой как Doc2Vec.Таким образом, это может быть целесообразно только для небольших наборов текстов, или если много вычислительной мощности может быть выделено, или если дополнительная оптимизация первого прохода ограничивает количество парных расчетов ОМУ, которые нужно сделать.

(Существует также другая метрика, которая может приблизить производительность ОМУ, называемая «Мягкое косинусное сходство». В последних версиях пакета Python gensim доступны вычисления как по ОМУ, так и по мягкому косинусному подобию, но они не 'пока полностью оптимизированы, а лучшие практики четко не описаны.)

0 голосов
/ 12 мая 2018

Я думаю, что результат будет случайным.Почему бы не натренировать его вручную на пару десятков таких вводов?Результаты могут быть довольно хорошими.

...