В настоящее время я использую Python
с selenium
для очистки. В selenium
есть много способов очистить данные. И я использовал css selectors
.
Но потом я понял, что только tagNames
это те вещи, которые всегда есть на сайтах. Например,
Не каждый веб-сайт использует классы или идентификаторы, например, Википедия. Они обычно используют только теги в нем. как <h1>
, <a>
без каких-либо классов или идентификатора.
Существует ограничение для удаления USING tagNames
, поскольку они очищают каждый элемент под своими тегами.
Например: если я хочу очистить содержимое таблицы, находящееся под тегом <p>
, то оно очищает содержимое таблицы, а также все ненужные описания.
Мой вопрос: возможно ли скрепить требуемые элементы под тегами, которые не копируют все остальные элементы под их тегами?
Например, если я захочу очистить контент, скажем, от Amazon, он будет выбирать только названия продуктов под тегами h1
, а не очищать все заголовки под тегом h1
, которые не являются названиями продуктов.
Если вы найдете какой-либо другой метод / локатор для использования, даже кроме tagName, вы также можете сказать мне. Но условие состоит в том, что он должен присутствовать на каждом веб-сайте / большинстве веб-сайтов
Любая помощь будет принята с благодарностью ? ...