Можно ли написать код, который генерирует регулярное выражение или XPath, который анализирует ссылки на основе какого-либо HTML-документа?
То, что я хочу, - это проанализировать страницу для некоторых ссылок. Единственное, что я знаю, это то, что большинство ссылок на странице - это ссылки.
Для простого примера, возьмите страницу результатов поисковой системы Google, например, this . Большинство ссылок из результатов поиска и выглядит примерно так:
<h3 class="r"><a onmousedown="return rwt(this,'','','res','1','AFQjCNERidL9Hb6OvGW93_Y6MRj3aTdMVA','')" class="l" href="http://stackoverflow.com/"><em>Stack Overflow</em></a></h3>
Можно ли написать код, который распознает это и распознает это и может анализировать все ссылки, даже если Google изменяет их представление?
Я думаю о разборе всех ссылок и поиске символов X до и после каждого тега, а затем работаю с этим.
Я понимаю, что это также может быть сделано с XPath, но вопрос все тот же. Могу ли я проанализировать этот контент и сгенерировать действительный XPath для поиска ссылок serp?