Я собираюсь загрузить (для будущих целей языковой обработки) несколько тысяч веб-страниц. Теперь я думаю, какие метаданные мне следует сохранить. Я исследую это, но не хочу пренебрегать чем-то важным.
<title>
<link>
<publish_date>
<date_downloaded>
<source> // to this page
<keyword> // for Solr indexing
<text> // cleaned body of page
Есть ли что-то важное, что я мог бы пропустить в будущем?