Создать кластеризацию документов на основе текста документа - PullRequest
0 голосов
/ 25 января 2019

В Elasticsearch возможно группировать документы, которые разделяют наиболее похожие тексты, не давая начальный запрос для сравнения с?

Я знаю, что можно запрашивать и получать MLT («больше похоже на этот документ»)но возможно ли кластеризовать документы в индексе в соответствии со значениями полей?

Например:

document 1: The quick brown fox jumps over the lazy dog

document 2: Barcelona is a great city

document 3: The fast orange fox jumps over the lazy dog

document 4: Lotus loft Room - Bear Mountains Neighbourhood

document 5: I do not like to eat fish

document 6: "Lotus Loft" Condo From $160.00 CAD/night, sleeps up to 4

document 7: Lotus Loft

Теперь выполните некую агрегацию, которая бездавая поисковый запрос, он может группировать:

Group 1: document 1 and document 3

Group 2: document 2 

Group 3: document 4 and document 6 and document 7

Group 4: document 5

ИЛИ

Пожалуйста, просто дайте мне знать другие способы поиска различных кластеров документов, например, с помощью Apache Spark, KNN, Неконтролируемый способ обучения или любой другой алгоритм, чтобы найти почти дубликаты документов или кластеризовать подобные документы?

Я просто хочу кластеризовать свой документ на основе поля страны, города, Латвии, имени свойства или описания и т. Д. МоегоДокументыasticsearch.

В основном я хочу знать -

Как создать кластеры из похожих документов (например, json / csv) или найти дубликат документаИспользовать ли анализ текста на языке Python / обучение без учителя с помощью KNN / pyspark с MLIB или любые другие алгоритмы кластеризации документов?дайте мне несколько подсказок / проекты с открытым исходным кодом или любые другие ссылки на ресурсы.Мне просто нужны конкретные примеры или учебники для этой задачи

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...