Индекс Stemming для обработки текста в C # или ruby - PullRequest
0 голосов
/ 30 октября 2010

Учитывая этот текст:

«Друзья - дружелюбные друзья, которые дружат и классифицируют дружественный классификационный класс. Цветочные цветы текут сквозь потоки цветов»

Мне нужно применить stemming к тексту для достижения следующего результата:

frequency("following")                = 1
frequency("flow")                     = 2
frequency("classification")           = 1
frequency("class")                    = 1
frequency("flower")                   = 3
frequency("friend")                   = 4
frequency("friendly")                 = 4
frequency("classes")                  = 1

Как мы взаимодействуем с поисковой системой FAST. FAST индексирует контент для предоставления релевантных результатов поиска по запросу. Одним из аспектов индексации является ограничение, и нам нужно использовать C # или ruby ​​для решения этой проблемы.

Буду признателен за любые мнения о лучшем подходе

Ответы [ 2 ]

2 голосов
/ 01 ноября 2010
    public StemmingProcessorResults ProcessText(string text)
    {
            return new StemmingProcessorResults(
                    new []{
                        new StemmingProcessorResultItem("following", 1),
                        new StemmingProcessorResultItem("flow", 2),
                        new StemmingProcessorResultItem("classification", 1),
                        new StemmingProcessorResultItem("class", 1),
                        new StemmingProcessorResultItem("flower", 3),
                        new StemmingProcessorResultItem("friend", 4),
                        new StemmingProcessorResultItem("friendly", 4),
                        new StemmingProcessorResultItem("classes", 1)
                    }
                );
    }

Вот и все, что должно быть идеально для ваших нужд копирования-вставки

0 голосов
/ 30 декабря 2012

Вы не можете «применить stemming» к тексту, чтобы получить эти результаты, потому что критерии принятия содержат ошибку.А именно частота («друг») должна быть 5. Каждый алгоритм по определению не может дать критерии приемлемостиПоэтому любой алгоритм, который дает эти значения, должен будет сделать - согласно Робу Эштону.Вы также можете использовать оператор switch или поиск по словарю, что угодно, просто нужно вывести эти числа.

...