Путаница с алгоритмом портера - PullRequest
2 голосов
/ 23 декабря 2010

Я пытаюсь реализовать алгоритм stemming, но я наткнулся на этот момент

где квадратные скобки обозначают произвольное наличие их содержимого. Использование (VC) {m} для обозначения VC повторяется m раз, это может быть снова записано как

[C](VC){m}[V].

м будет называться \ мера \ любого слово или часть слова, когда они представлены в эта форма. Случай m = 0 охватывает пустое слово Вот несколько примеров:

m=0    TR,  EE,  TREE,  Y,  BY.
m=1    TROUBLE,  OATS,  TREES,  IVY.
m=2    TROUBLES,  PRIVATE,  OATEN,  ORRERY.

Я не понимаю, что это за "мера" и что она обозначает?

1 Ответ

2 голосов
/ 23 декабря 2010

Похоже, мера - это число раз, когда гласный сразу же сопровождается согласной.Например,

"ПРОБЛЕМЫ" имеет:

Необязательные начальные согласные [C] = "TR".

Первая группа согласных гласных (VC) = "OUBL".

Вторая группа гласных-согласных (VC) = "ES".

Необязательные завершающие гласные [V] пусто.

Таким образом, мера равна двум, число раз(VC) было "согласовано".

...