Единственные / множественные поиски и stemming - PullRequest
1 голос
/ 01 октября 2008

Я обнаружил простое решение для поиска по ключевым словам в единственном и множественном числе. Я слышал о стемминге, но не хочу использовать все его возможности, только множественное / единственное преобразование Язык голландский. Посмотрел на http://www.snowball.tartarus.org раньше. Кто-нибудь знает простое решение для поисков в единственном числе? Заранее спасибо.

Ответы [ 3 ]

2 голосов
/ 01 октября 2008

Используйте словарь, список стоп-слов (тех, которые вы не хотите выделять), а также правила для языка. Если вы не знаете голландский, то я не могу вам помочь, но покажу, как это будет сделано на испанском языке, например:

  • Множественное число оканчивается на s, если нет, то это сделано
    • Если оно заканчивается на s,
      • проверить, является ли это глаголом или спряжением, оканчивающимся на s, если он равен единице, то это делается (глаголы могут быть добавлены в список стоп-слов)
      • если это не глагол, удалите s
      • если слово существует в словаре, сделано
      • , если не удаляется предыдущая буква, и проверьте ее в словаре.
      • если его все еще нет, это исключение, которое вам нужно будет проверить вручную, чтобы закодировать в исключениях (сейчас я не могу вспомнить ни одного, но они всегда существуют:)

Конечно, это не будет переводиться напрямую на голландский.

В целом, стеммеры уже сделаны и предоставляют большую часть того, что вам нужно, почему вы не хотите их?

1 голос
/ 27 сентября 2012

Ответ правильный, но стоит упомянуть, что в голландском языке есть большое количество неправильных глаголов. Это делает решение проблемы поиска таблиц больше, чем набор отдельных правил.

Вам понадобится доступ к корпусу, вы можете найти его для голландского языка здесь: http://corpus1.mpi.nl/ds/imdi_browser/

1 голос
/ 01 октября 2008

Stemmers вызвал большое раздражение пользователей, поэтому, если я использую один из них, все функции, кроме единственного / множественного числа, должны быть отключены. Поэтому необходимо использовать только множественные / единственные преобразования.

...