что не так с моим XML для ранжирования документов? - PullRequest
0 голосов
/ 08 марта 2012

Я написал программу на C # для вычисления TF-IDF для ранжирования документов.

Я использовал следующий XML для хранения частот слов в документах. Меня сильно критиковали за использование этой структуры. Несмотря на то, что я использую текст слова в теге, он эффективен и занимает меньше места. Кроме того, я могу довольно легко выполнить поиск с помощью XDocument, поскольку он имеет красивую древовидную структуру. Можете ли вы помочь мне понять, почему меня сильно критиковали?

Критика: Как вы можете добавить информацию в метаданные? (Для меня это новаторство).

<word>
   <siddhartha>
      <doc1> 4 </doc4>
      <doc2> 5 </doc2>

   <insipration>
      <doc1> 4 </doc1>
      <doc6> 5 </doc6>

   ....
</word>

Мне предложили что-то вроде этого:

   <word>
   <text> siddhartha </text>
   <doc1> 4 </doc1>
   <text> inspiration </text>
   <doc1> 4 </doc1>
   ...
   </word>

1 Ответ

1 голос
/ 08 марта 2012

Ваша структура с именем слова в качестве узла будет трудно проанализировать с помощью общих синтаксических анализаторов. Нет определенной структуры: вам нужно прочитать весь документ, чтобы узнать его.

Возможно, я сделал что-то подобное (я пытался оставаться закрытым для вашей идеи):

<words>
   <word id="siddhartha">
      <freq id="doc1"> 4 </freq>
      <freq id="doc2"> 5 </freq>
   </word>
   ....
</words>
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...