Я написал программу на C # для вычисления TF-IDF для ранжирования документов.
Я использовал следующий XML для хранения частот слов в документах. Меня сильно критиковали за использование этой структуры. Несмотря на то, что я использую текст слова в теге, он эффективен и занимает меньше места. Кроме того, я могу довольно легко выполнить поиск с помощью XDocument, поскольку он имеет красивую древовидную структуру. Можете ли вы помочь мне понять, почему меня сильно критиковали?
Критика: Как вы можете добавить информацию в метаданные? (Для меня это новаторство).
<word>
<siddhartha>
<doc1> 4 </doc4>
<doc2> 5 </doc2>
<insipration>
<doc1> 4 </doc1>
<doc6> 5 </doc6>
....
</word>
Мне предложили что-то вроде этого:
<word>
<text> siddhartha </text>
<doc1> 4 </doc1>
<text> inspiration </text>
<doc1> 4 </doc1>
...
</word>