Я пытался разработать метод, использующий Google Sheets, чтобы вернуть дату публикации новостных статей на веб-сайтах. Некоторые страницы не делают этого очевидным или вообще не упоминают дату публикации, но в источнике страницы часто присутствует такой узел, как:
<meta content="2018-10-16T00:03:35+0100" itemprop="datePublished" />
Итак, я придумал такую функцию:
=ImportXml(A19, "//meta[@itemprop='datePublished']/@content")
для URL-адреса в ячейке A19, который будет возвращать содержимое, если узел использует этот синтаксис.
Однако на других страницах это будет не совсем так - синтаксис будет примерно таким, и Google Sheets возвращает ошибку «Импортированный контент пуст»:
<meta property ="article:published_time" content="2018-10-16T00:03:35+0100" />.
Кажется, что все соответствующие узлы в исходном коде будут содержать слово «опубликовано» - есть ли способ построить мой запрос так, чтобы он возвращал содержимое из любого узла, содержащего слово «опубликовано»?
Большое спасибо!