Question

Я использовал Метафон и soundex Кодер с "Phoneti c Token Filter" в Elasticsearch.

Метафон хорош для Английский sh слов.

Soundex подходит для Engli sh, а также хинди может быть много других языков .

Я хочу знать, какой из этих кодировщиков лучше всего оптимизирован для хинди и, если возможно, для других индийских языков?

Soundex
Метафон
double_metaphone
refined_soundex
caverphone1 - Engli sh (локализован в Новой Зеландии)
caverphone2 - Engli sh (локализован в Новой Зеландии)
кёльн - немецкий
nysiis - импровизированный Soundex
koelnerphonetik - немецкий
haasephonetik - немецкий
beider_morse - Engli sh и несколько европейских языков
daitch_mokotoff - Slavi c & Yiddi sh Фамилия

As Это не указано на сайте Elasticsearch , для какого языка мы должны выбрать, какой кодировщик.

Также скажите, какой из кодировщиков вы уже использовали и для какого языка.

jaspreet chahal · Answer 1 · 28 марта 2020

Кодеры Phoneti c - это алгоритмы для индексации слов по их произношению.

Объяснение этого доступно в википедии

Метафон, Двойной метафон, и Metaphone 3 : подходит для использования с большинством английских sh слов, а не только с именами. Метафонные алгоритмы являются основой для многих популярных программ проверки правописания. Алгоритм кодирования Double Metaphone phoneti c является вторым поколением этого алгоритма.

Soundex : был разработан для кодирования фамилий для использования в переписи. Коды Soundex - это четырехсимвольные строки, состоящие из одной буквы, за которой следуют три цифры.

Daitch – Mokotoff Soundex : уточнение Soundex, разработанное для лучшего соответствия фамилий славян c и германское c происхождение. Коды Daitch – Mokotoff Soundex - это строки, состоящие из шести цифр.

Кёльнская фонетика : Это похоже на Soundex, но больше подходит для немецких слов.

Система идентификации и разведки штата Нью-Йорк (NYSIIS) : которая сопоставляет похожие фонемы с одной и той же буквой. В результате получается строка, которую читатель может произносить без расшифровки.

Подход соответствия рейтингу, разработанный Western Airlines в 1977 : этот алгоритм имеет метод кодирования и сравнения диапазонов.

Caverphone : создан для помощи в сопоставлении данных между списками избирателей конца 19-го и начала 20-го века, оптимизирован для акцентов, присутствующих в некоторых частях Новой Зеландии

Ссылки: Подробная информация о вышеупомянутых алгоритмах и их подтипах доступна на странице 1 википедии ниже. https://en.wikipedia.org/wiki/Phonetic_algorithm

Среди вышеупомянутых SoundEx наиболее подходит для индийских языков. 1. Phoneti c поиск индийских языков 2. https://thottingal.in/blog/2009/07/26/indicsoundex/

Как решить, какой кодер использовать для какого языка в Elasticsearch «Phoneti c Token filter»?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как решить, какой кодер использовать для какого языка в Elasticsearch «Phoneti c Token filter»?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы