То, что вы пытаетесь сделать, называется «извлечением контента».Оказывается, это удивительно трудная задача, которую трудно решить хорошо, и многие наивные решения справляются довольно плохо.может чему-то научиться, глядя на их решения.Они также предоставляют услуги, которыми вы, возможно, сможете воспользоваться - возможно, вы можете передать свою проблему им и позволить их API позаботиться об этом.:)
Если это не удастся, поиск по запросу " извлечение html-содержимого " даст множество полезных результатов, включая ряд статей по этой теме.