Как решить, какой кодер использовать для какого языка в Elasticsearch «Phoneti c Token filter»? - PullRequest
1 голос
/ 28 марта 2020

Я использовал Метафон и soundex Кодер с "Phoneti c Token Filter" в Elasticsearch.

Метафон хорош для Английский sh слов.

Soundex подходит для Engli sh, а также хинди может быть много других языков .

Я хочу знать, какой из этих кодировщиков лучше всего оптимизирован для хинди и, если возможно, для других индийских языков?

  • Soundex
  • Метафон
  • double_metaphone
  • refined_soundex
  • caverphone1 - Engli sh (локализован в Новой Зеландии)
  • caverphone2 - Engli sh (локализован в Новой Зеландии)
  • кёльн - немецкий
  • nysiis - импровизированный Soundex
  • koelnerphonetik - немецкий
  • haasephonetik - немецкий
  • beider_morse - Engli sh и несколько европейских языков
  • daitch_mokotoff - Slavi c & Yiddi sh Фамилия

As Это не указано на сайте Elasticsearch , для какого языка мы должны выбрать, какой кодировщик.

Также скажите, какой из кодировщиков вы уже использовали и для какого языка.

1 Ответ

0 голосов
/ 28 марта 2020

Кодеры Phoneti c - это алгоритмы для индексации слов по их произношению.

Объяснение этого доступно в википедии

  1. Метафон, Двойной метафон, и Metaphone 3 : подходит для использования с большинством английских sh слов, а не только с именами. Метафонные алгоритмы являются основой для многих популярных программ проверки правописания. Алгоритм кодирования Double Metaphone phoneti c является вторым поколением этого алгоритма.
  2. Soundex : был разработан для кодирования фамилий для использования в переписи. Коды Soundex - это четырехсимвольные строки, состоящие из одной буквы, за которой следуют три цифры.
  3. Daitch – Mokotoff Soundex : уточнение Soundex, разработанное для лучшего соответствия фамилий славян c и германское c происхождение. Коды Daitch – Mokotoff Soundex - это строки, состоящие из шести цифр.
  4. Кёльнская фонетика : Это похоже на Soundex, но больше подходит для немецких слов.
  5. Система идентификации и разведки штата Нью-Йорк (NYSIIS) : которая сопоставляет похожие фонемы с одной и той же буквой. В результате получается строка, которую читатель может произносить без расшифровки.
  6. Подход соответствия рейтингу, разработанный Western Airlines в 1977 : этот алгоритм имеет метод кодирования и сравнения диапазонов.
  7. Caverphone : создан для помощи в сопоставлении данных между списками избирателей конца 19-го и начала 20-го века, оптимизирован для акцентов, присутствующих в некоторых частях Новой Зеландии

Ссылки: Подробная информация о вышеупомянутых алгоритмах и их подтипах доступна на странице 1 википедии ниже. https://en.wikipedia.org/wiki/Phonetic_algorithm

Среди вышеупомянутых SoundEx наиболее подходит для индийских языков. 1. Phoneti c поиск индийских языков 2. https://thottingal.in/blog/2009/07/26/indicsoundex/

...