Возможно, вы поступаете неправильно, или даже задаете неправильный вопрос.
Есть ли на целевом веб-сайте API или какой-либо поток данных?
Можете ли вы получить необходимую информацию в формате JSON или XML непосредственно с сайта?
Я думаю, вы неправильно поняли технологию. HTML - это просто фреймворк, на котором основаны форматирование и данные.
Анализ HTML-страницы кажется ужасно большой головной болью, я сомневаюсь, что вы когда-нибудь сможете заставить ее работать, потому что почти все сайты в наши дни частично или полностью генерируются на стороне сервера, страница является лишь результатом .
Некоторые сайты скрывают информацию в памяти, а другие динамически получают ее, например, через ajax, что означает, что простая попытка получить данные путем анализа HTML приведет к получению нулевого значения.
Еще одна проблема, о которой вам следует знать, это то, что простое копирование данных с созданных веб-сайтов может привести к проблемам с авторским правом.