Добавьте мой голос за WebKit (или какой-либо другой существующий код). Зачем заново изобретать колесо, особенно когда оно действительно причудливое, сложное, потратило годы на развитие.
Если вы действительно хотите, вы можете написать какой-нибудь код, который сначала проверяет наличие javascript, чтобы вы выдавали только те работы, которые в нем нуждаются. Затем напишите фильтры для общих рекламных сетей и пакетов аналитики, которые следует игнорировать. Хотя, если бы это был я, я бы предпочел соответствовать тому, как я ползаю.
Кроме того, не думайте, что вам нужна только рудиментарная поддержка, так как есть несколько действительно прикольных сайтов, которые вносят массу изменений DOM. Если вы ожидаете, что сканирование будет надежным, будьте готовы поддержать то, что поддерживают браузеры. Самый простой способ сделать это - использовать тот же код, который используют браузеры.