В Elasticsearch возможно группировать документы, которые разделяют наиболее похожие тексты, не давая начальный запрос для сравнения с?
Я знаю, что можно запрашивать и получать MLT («больше похоже на этот документ»)но возможно ли кластеризовать документы в индексе в соответствии со значениями полей?
Например:
document 1: The quick brown fox jumps over the lazy dog
document 2: Barcelona is a great city
document 3: The fast orange fox jumps over the lazy dog
document 4: Lotus loft Room - Bear Mountains Neighbourhood
document 5: I do not like to eat fish
document 6: "Lotus Loft" Condo From $160.00 CAD/night, sleeps up to 4
document 7: Lotus Loft
Теперь выполните некую агрегацию, которая бездавая поисковый запрос, он может группировать:
Group 1: document 1 and document 3
Group 2: document 2
Group 3: document 4 and document 6 and document 7
Group 4: document 5
ИЛИ
Пожалуйста, просто дайте мне знать другие способы поиска различных кластеров документов, например, с помощью Apache Spark, KNN, Неконтролируемый способ обучения или любой другой алгоритм, чтобы найти почти дубликаты документов или кластеризовать подобные документы?
Я просто хочу кластеризовать свой документ на основе поля страны, города, Латвии, имени свойства или описания и т. Д. МоегоДокументыasticsearch.
В основном я хочу знать -
Как создать кластеры из похожих документов (например, json / csv) или найти дубликат документаИспользовать ли анализ текста на языке Python / обучение без учителя с помощью KNN / pyspark с MLIB или любые другие алгоритмы кластеризации документов?дайте мне несколько подсказок / проекты с открытым исходным кодом или любые другие ссылки на ресурсы.Мне просто нужны конкретные примеры или учебники для этой задачи