Эффективный способ динамического получения даты публикации / автора статьи? - PullRequest
0 голосов
/ 11 февраля 2011

Я работаю над ссылочным веб-приложением в рамках курса, который я изучаю, цель которого - дать студентам возможность быстро и легко ссылаться на материалы, в которых они находят информацию, и я сталкиваюсь с несколькими проблемами с вещи.

Первый - получение даты публикации статьи / сайта. При работе со статическими сайтами HTML это легко, так как я могу просто использовать document.lastModified, чтобы узнать время его последнего изменения. Проблемы возникают при работе с гораздо более распространенным веб-сайтом на основе CMS, поскольку страницы генерируются динамически, что приводит к тому, что document.lastModified всегда возвращает эквивалент «сейчас» ... что совсем не точно.

Существуют шаги, которые разработчики сайтов могут предпринять, чтобы сделать это немного проще с реализацией HTML5, а именно с добавлением элемента, который может иметь дополнительные атрибуты, определяющие его как время публикации публикации. Такие сайты хороши, но подавляющее большинство сайтов не используют HTML5, и я не думаю, что это изменится в ближайшее время. У кого-нибудь есть идеи о том, как точно определить, когда был создан пост?

Второй - точное определение автора поста или страницы. Есть несколько способов определить это. Во-первых, если сайт использовал микроформат hAtom для идентификации элементов сайта, что облегчает задачу ... но, как и в случае с датами публикации, это не распространено.

Следующим будет просмотр метаданных сайта и определение автора на основе содержимого, хранящегося там. Это необычно, и, как правило, владелец сайта или другое лицо, не ответственное за публикацию, оставляет его ненадежным для использования в качестве ресурса.

Ответы [ 3 ]

0 голосов
/ 11 февраля 2011

Извините, я не могу особо помочь, но как насчет использования регулярных выражений для сканирования страницы на предмет "По ___" или "Источник: ___", чтобы получить автора / источник информации?

Что касается даты последнего изменения, насколько я знаю, нет простого способа получить это, поскольку регулярное выражение для даты вернуло бы недавние статьи в боковых панелях, ссылках и т. Д. не сработает. Вы можете заменить это на «добавление даты» в вашем реферрере или аналогичное.

Надеюсь, это поможет вам хоть немного, а если нет, даст вам одну или две идеи.

Конечно, если есть какой-либо API / RSS, вы можете отсканировать его на дату последнего обновления / публикации и использовать его?

0 голосов
/ 12 февраля 2011

Звучит как довольно сложная вещь, потому что нет абсолютно никакой стандартизации для этой информации, о которой я знаю.Некоторые сайты могут указывать это в своих ключевых словах, другие - нет.

Я сделал некоторые заметки как часть класса критики в СМИ, и я обнаружил, что почти каждый cms должен обрабатываться индивидуально.В целом, сделать что-то, что могло бы найти информацию об авторе на случайных веб-страницах, звучит очень сложно.

Возможно, вы сможете сделать что-то специально для сбора этой информации из блогов WordPress, поскольку у них очень много общего.Но что-то, предназначенное для того, чтобы просто взломать любой сайт и получить определенную информацию, это довольно сложно.

Не пытаться вас обескуражить, просто сказать, что вы поставили довольно высокую цель, имхо.

0 голосов
/ 11 февраля 2011

Если на веб-сайте есть RSS-лента и статья достаточно свежая, чтобы включить ее, вы можете извлечь из нее метаданные о статье.

...