Вариант для очистки (кроме получения страницы), который может быть менее надежным (зависит от ваших потребностей), но предложит решение для вашей проблемы, заключается в использовании какой-либо обертки вокруг полноценного веб-браузер и буквально кодировать шаблон использования и извлекать соответствующие данные. Поскольку вы не упомянули, какой язык программирования вы знаете, я приведу 3 примера: 1) Watir - ruby, 2) Watin - IE и Firefox через .net, 3) Selenium - IE через C # / Java / Perl / PHP / Рубин / Python
Я приведу небольшой пример использования Watin & C #:
IE browser = new IE();
browser.GoTo(YOUR CNN URL);
List visibleComments = Browser.List(Find.ById("dsq-comments"));
//do your scraping thing
Link moreComments = Browser.Link(Find.ByClass("dsq-paginate-append-text");
moreComments.click();
//wait util ajax ended by searching for some indicator
Browser.WaitUntilContainsText(SOME TEXT);
//do your scraping thing
Примечание:
Я не знаком с disqus, но это может быть лучшим вариантом для принудительного отображения всех комментариев, зацикливая части кода Link & click в коде, который я разместил, пока все комментарии не станут видны, и очистите элемент List dsq-comments