Как мы можем использовать искусственные нейронные сети для поиска похожих документов? - PullRequest
0 голосов
/ 17 октября 2018

Как мы можем использовать ANN, чтобы найти похожие документы?Я знаю, что это глупый вопрос, но я новичок в этой области НЛП.Я сделал модель, используя kNN и метод слов, чтобы решить мою проблему.Используя это, я могу получить n документов (вместе с их близостью), которые в некоторой степени похожи на ввод, но теперь я хочу реализовать то же самое, используя ANN, и у меня нет никакой идеи.

Заранее спасибоза любую помощь или предложения.

Ответы [ 3 ]

0 голосов
/ 17 октября 2018

Способ получения вложений для вашего языка - это либо , обучая их самостоятельно по вашему выбору. (достаточно большой - например, википедия), либо скачивание обученных вложений (для python существует множество источников для обученных вложений).или загружается с помощью модуля gensim - который фактически является стандартом для Python word2vec).

Вы также можете использовать GloVe (используя glove-python) или FastText вложения слов.

Если вам интересно, вы можете найти более подробные описания вложений с примерами кода и исходными документами .

0 голосов
/ 10 января 2019

Взгляните на статью https://arxiv.org/pdf/1805.10685.pdf, которая дает вам общее представление.проверьте эту ссылку для получения дополнительной ссылки https://github.com/Hironsan/awesome-embedding-models

0 голосов
/ 17 октября 2018

Вы можете использовать «вложение слов» - метод, который представляет слова в плотном векторном представлении.Чтобы найти похожие документы в качестве векторов, вы можете просто использовать косинусное сходство .

Пример того, как построить word2vec модель с использованием TensorFlow.Еще один пример использования слоя embeddings от Keras.

...