Как импортировать данные в мой лист Google с веб-сайта с помощью importXML - PullRequest
0 голосов
/ 03 июня 2019

Сегодня, экспериментируя с использованием importXML в Google Sheets, я столкнулся с проблемой.Я пытался импортировать заголовок заголовка страницы турнира USTA в Google Sheet, однако это не сработало, поскольку привело к отображению HTML-заголовка веб-страницы («TournamentHome»).Ниже приведены Google Sheet и используемый веб-сайт:

Google Sheet и функции:

=importXML(F2, "//html//body[@id='thebody']//div[@id='content']//div[@id='pagetitle']")

enter image description here


Используемый веб-сайт и раздел исходного кода

enter image description here

Название, которое я пытаюсь извлечь с сайта: TOWPATH 24-ой ГОДОВОЙ СПАСИБО JR JR SINGLES .

Ссылка на сайт https://m.tennislink.usta.com/tournamenthome?T=225779

Ответы [ 2 ]

1 голос
/ 03 июня 2019

Как насчет этого образца формулы? В этой формуле значение заголовка напрямую извлекается из сценария, прежде чем значение будет установлено на #pagetitle. Пожалуйста, подумайте об этом как об одном из нескольких ответов.

Пример формулы:

=REGEXEXTRACT(IMPORTXML(A1,"//div[@class='tournament_search']/script"),"escape\(""([\w\s\S]+)""")

Результат:

Когда https://m.tennislink.usta.com/TournamentHome/tournament.aspx?T=38079 и https://m.tennislink.usta.com/tournamenthome?T=225779 помещены в «A1» и «A2», результаты выглядят следующим образом.

enter image description here

Справка:

1 голос
/ 03 июня 2019

обновление:

=REGEXEXTRACT(QUERY(ARRAY_CONSTRAIN(IMPORTDATA(
 "https://m.tennislink.usta.com/tournamenthome?T=225779"), 555, 1), 
 "where Col1 contains 'escape'"), "\(""(.*)""\)")

enter image description here


к сожалению, это не будет возможным, как вы пытаетесь, потому что поле вы пытаетесьЗачистка контролируется JavaScript, и Google Sheets не может понять / импортировать JS.Вы можете проверить это, просто отключив JS для данной ссылки, и вы увидите, что именно можно импортировать в Google Sheets:

0

...