Какие метаданные я должен сохранить при загрузке веб-страниц? - PullRequest
1 голос
/ 12 апреля 2010

Я собираюсь загрузить (для будущих целей языковой обработки) несколько тысяч веб-страниц. Теперь я думаю, какие метаданные мне следует сохранить. Я исследую это, но не хочу пренебрегать чем-то важным.

<title>
<link>
<publish_date>
<date_downloaded>
<source>  // to this page
<keyword> // for Solr indexing
<text>    // cleaned body of page

Есть ли что-то важное, что я мог бы пропустить в будущем?

1 Ответ

1 голос
/ 12 апреля 2010

Есть и другие, которые могут вас заинтересовать:

  • Тип документа (статья, реклама, целевая страница и т. Д.)
  • Субтитры / Заголовок / Абстрактные
  • Местоположение изображения (URL изображений, если вы хотите отобразить в вашем веб-приложении)
  • Автор
  • Раздел (чтобы вы могли использовать fq в запросах Solr, чтобы ограничить результаты конкретными разделами)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...