Question

В Elasticsearch возможно группировать документы, которые разделяют наиболее похожие тексты, не давая начальный запрос для сравнения с?

Я знаю, что можно запрашивать и получать MLT («больше похоже на этот документ»)но возможно ли кластеризовать документы в индексе в соответствии со значениями полей?

Например:

document 1: The quick brown fox jumps over the lazy dog

document 2: Barcelona is a great city

document 3: The fast orange fox jumps over the lazy dog

document 4: Lotus loft Room - Bear Mountains Neighbourhood

document 5: I do not like to eat fish

document 6: "Lotus Loft" Condo From $160.00 CAD/night, sleeps up to 4

document 7: Lotus Loft

Теперь выполните некую агрегацию, которая бездавая поисковый запрос, он может группировать:

Group 1: document 1 and document 3

Group 2: document 2 

Group 3: document 4 and document 6 and document 7

Group 4: document 5

ИЛИ

Пожалуйста, просто дайте мне знать другие способы поиска различных кластеров документов, например, с помощью Apache Spark, KNN, Неконтролируемый способ обучения или любой другой алгоритм, чтобы найти почти дубликаты документов или кластеризовать подобные документы?

Я просто хочу кластеризовать свой документ на основе поля страны, города, Латвии, имени свойства или описания и т. Д. МоегоДокументыasticsearch.

В основном я хочу знать -

Как создать кластеры из похожих документов (например, json / csv) или найти дубликат документаИспользовать ли анализ текста на языке Python / обучение без учителя с помощью KNN / pyspark с MLIB или любые другие алгоритмы кластеризации документов?дайте мне несколько подсказок / проекты с открытым исходным кодом или любые другие ссылки на ресурсы.Мне просто нужны конкретные примеры или учебники для этой задачи

Создать кластеризацию документов на основе текста документа

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Создать кластеризацию документов на основе текста документа

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы