Question

Я собираюсь загрузить (для будущих целей языковой обработки) несколько тысяч веб-страниц. Теперь я думаю, какие метаданные мне следует сохранить. Я исследую это, но не хочу пренебрегать чем-то важным.

<title>
<link>
<publish_date>
<date_downloaded>
<source>  // to this page
<keyword> // for Solr indexing
<text>    // cleaned body of page

Есть ли что-то важное, что я мог бы пропустить в будущем?

Pascal Dimassimo · Answer 1 · 12 апреля 2010

Есть и другие, которые могут вас заинтересовать:

Тип документа (статья, реклама, целевая страница и т. Д.)
Субтитры / Заголовок / Абстрактные
Местоположение изображения (URL изображений, если вы хотите отобразить в вашем веб-приложении)
Автор
Раздел (чтобы вы могли использовать fq в запросах Solr, чтобы ограничить результаты конкретными разделами)

Какие метаданные я должен сохранить при загрузке веб-страниц?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Какие метаданные я должен сохранить при загрузке веб-страниц?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов