Я думаю, что может быть несколько разных подходов к таким сайтам:
Система управления контентом на основе. В этом случае статья может фактически представлять собой набор полей, состоящих из нескольких строк в базе данных, так что это не так просто, как вы описали. Поля, вероятно, представляют собой смесь Rich Text / HTML, поэтому они могут содержать некоторые теги, но изображения и другие элементы могут быть получены из чего-то другого. Обратите внимание, что в этом случае могут быть визуализации XSLT, которые знают, как комбинировать поля для формирования страницы.
Платформа на базе. Что-то вроде Facebook, тем временем, может иметь другой способ обработки редактирования и обновления контента и, таким образом, находится вне ситуации CMS, я думаю. Я не уверен, насколько хорошо это дополняет другой подход, но я думаю, что это несколько отличается в некоторых отношениях. В этом случае идея заключается в том, что компания, стоящая за большим сайтом, имеет собственный запатентованный метод хранения контента и его структуры.
Просто добавлю немного: Стандарты и руководящие указания по будущим СМИ с сайта BBC может содержать более подробную информацию о том, как устроен их сайт, в том числе о том, какие могут быть "STM", не забывайте, что Вы можете использовать что-то вроде Fiddler или Firebug , чтобы отметить все запросы, которые фактически были сделаны для запроса веб-страницы, поскольку вы можете удивиться тому, сколько файлов загружено с одного URL первоначально.