В Excel я успешно подключился к каналу OData из Data.Medicare.gov (веб-сайт https://data.medicare.gov/Hospital-Compare/Healthcare-Associated-Infections-Hospital/77hc-ibv8/data, а конечная точка - https://data.medicare.gov/api/odata/v4/77hc-ibv8).
Однако теперь, когда я внимательнопросматривая и анализируя данные, я вижу, что некоторые строки / записи данных на веб-сайте (https://data.medicare.gov/Hospital-Compare/Patient-survey-HCAHPS-Hospital/dgck-syfz/data) отсутствуют в моих данных Excel, а другие дублируются. После обновления данных в Excel некоторые из ранее отсутствующихстроки появляются, а другие исчезают. Строки, которые появляются, исчезают или дублируются при каждом обновлении, кажутся случайными.
Например, запись с названием больницы = "Региональный медицинский центр Тринитас" и идентификатором меры = "HAI-1-SIR "находится на веб-сайте, но иногда появляется, а затем снова появляется из таблицы данных Excel (__id =" row-6s6r ~ jx5f.wuje ") при каждом обновлении. Однако общее количество строк не изменяется и равнозагружаемый файл.
Не уверен, что это связано с большим количеством строк (> 170k) в наборе данных. Единственное связанное обсуждение, которое я нашелнаходится на https://blog.crossjoin.co.uk/2018/05/03/troubleshooting-data-refresh-performance-issues-with-odata-data-sources-in-power-bi-and-excel-using-fiddler/, но не думаю, что это решает мою проблему.
ОБНОВЛЕНИЕ 1:
Сократа, который предоставляет OData Feed для этого сайта, ответил следующим:
[Мы] смогли воспроизвести это поведение в Excel, но я не уверен, что его вызывает.Однако, похоже, что это не проблема с самим каналом OData, поскольку я могу последовательно получать доступ к этой строке через свой браузер (например, https://data.medicare.gov/api/odata/v4/77hc-ibv8('row-6s6r~jx5f.wuje')),, так что, похоже, это связано с тем, как Excel обрабатывает данные. К сожалению,Мне не удалось найти много информации в Интернете, объясняющей, почему это происходит, поэтому лучше обратиться в службу поддержки Microsoft, чтобы определить, могут ли они помочь с этим в дальнейшем.
ОБНОВЛЕНИЕ 2:
После обширного поиска и устранения неисправностей и обсуждения с технической поддержкой Microsoft, они (неправильно) пришли к выводу, что дубликаты присутствовали в ленте OData. Возвращаясь к поддержке Socrata, они приняли во внимание мое наблюдение, что этопроисходит только с большими наборами данных и может предложить решение проблемы (см. ответ, размещенный ниже).