Удобочитаемость - это не простой синтаксический анализатор, он использует сложный алгоритм для извлечения только необходимых компонентов. Если вы не гуру в программировании, я бы посоветовал вам воспользоваться их бесплатной службой, выделенной ниже.
вы можете запроситьдля разработчика API от читабельности (http://www.readability.com/publishers/api)
Если вы запрашиваете парсер, он будет делать именно то, что вы хотите достичь, а именно извлекать контент с сайтов. Просто не забудьте дать имдостаточно веская причина, чтобы позволить вам использовать их API.
Запрос к их службе синтаксического анализа будет выглядеть следующим образом
https://www.readability.com/api/content/v1/parser?url={url для анализа здесь} & token ={ваш ключ API здесь}
На запрос будет возвращен ответ вроде:
HTTP / 1.0 200 OK {"domain": "blog.readability.com","author": "Richard Ziade", "url": "http://blog.readability.com/2011/02/step-up-be-heard-readability-ideas/",
"short_url": "http://rdd.me/kbgr5a1k",
"title": "Step Up & Be Heard: Readability Ideas",
"total_pages": 1,
"word_count": 175,
"content": "<div>\n \n<div class=\"entry\">\n\t<p>When we launched Readability [snip] ...</div>\n</div>",
"date_published": "2011-02-22 00:00:00",
"next_page_id": null,
"rendered_pages": 1 }
Для парней, работающих с острыми ядрами, зацените узел читабельностиJS, ruby и порт Python здесь http://arrix.blogspot.com/2010/11/server-side-readability-with-nodejs.html
Счастливое кодирование