Я знаю, что операция WebTable может получать таблицы с веб-страницы, но мне нужно что-то более сложное, чем таблица. Мне удалось загрузить веб-страницу в формате HTML и сохранить ее в Azure хранилище больших двоичных объектов, но я не знаю, как прочитать HTML и продолжить процесс.
HTML не соответствует обычным типам источников данных, таким как CSV, паркет и т. Д., Поэтому его нелегко использовать в качестве источника. Это может быть двоичный источник действия копирования, но действия, которые я могу выполнять над двоичным источником, очень ограничены.
Используя Power Query, то, чего я пытаюсь достичь, можно сделать с помощью этого простого кода M :
let
Source =
Web.BrowserContents("https://www.who.int/emergencies/diseases/novel-coronavirus-2019/situation-reports"),
Links =
Html.Table(
Source,
{{
"Link",
"a[href^=""/docs""]",
each [Attributes][href]}})
in
Links
Я пробовал этот код также с потоком данных, но он не распознает объекты "Web" и "HTML".
Я обеспокоен тем, что простая задача для мощного запроса может быть намного сложнее на фабрике данных. Как я могу решить эту проблему?
Заранее спасибо!
Денн