Как сделать утилизацию с помощью фабрики данных - PullRequest
0 голосов
/ 22 марта 2020

Я знаю, что операция WebTable может получать таблицы с веб-страницы, но мне нужно что-то более сложное, чем таблица. Мне удалось загрузить веб-страницу в формате HTML и сохранить ее в Azure хранилище больших двоичных объектов, но я не знаю, как прочитать HTML и продолжить процесс.

HTML не соответствует обычным типам источников данных, таким как CSV, паркет и т. Д., Поэтому его нелегко использовать в качестве источника. Это может быть двоичный источник действия копирования, но действия, которые я могу выполнять над двоичным источником, очень ограничены.

Используя Power Query, то, чего я пытаюсь достичь, можно сделать с помощью этого простого кода M :

let
Source = 
 Web.BrowserContents("https://www.who.int/emergencies/diseases/novel-coronavirus-2019/situation-reports"),
Links = 
 Html.Table(
  Source, 
  {{
   "Link", 
   "a[href^=""/docs""]", 
   each [Attributes][href]}})
in
   Links

Я пробовал этот код также с потоком данных, но он не распознает объекты "Web" и "HTML".

Я обеспокоен тем, что простая задача для мощного запроса может быть намного сложнее на фабрике данных. Как я могу решить эту проблему?

Заранее спасибо!

Денн

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...