Я пытаюсь выяснить, какой лучший метод для меня будет использовать для разбора словосочетаний, переданных мне, и построения различных группировок на основе этих фраз.
Пример XML:
<root>
<keyword value=""My First Phrase""/>
<keyword value=""My First Phrase Again""/>
<keyword value=""My First Phrase Again and Again""/>
</root>
Так что я бы извлек их из xml:
My First Phrase
My First Phrase Again
My First Phrase Again and Again
Затем я хотел бы построить эти новые фразы из оригинала:
My First Phrase
My First
First Phrase
My
First
Phrase
My First Phrase Again
My First Phrase
First Phrase Again
My First
First Phrase
Phrase Again
My
First
Phrase
Again
Это позволило бы мне разбить фразы и выстроить своего рода ранжирование из этих слов.Я создал несколько списков и перебрал их, но это не так, как я ожидал.
Итак, для ранжирования я имею в виду следующее:
My First Phrase Again Rank: 1 (Exact Match)
My First Phrase Rank: 2
First Phrase Again Rank: 2
My First Rank: 3
First Phrase Rank: 3
Phrase Again Rank: 3
My Rank: 4
First Rank: 4
Phrase Rank: 4
Again Rank: 4
Не уверен, что наилучший подход будет для анализа этих данных.
Спасибо,
S