Я пишу несколько небольших приложений, которые анализируют источник нескольких веб-страниц, извлекают некоторые данные и сохраняют их в другом формате. В частности, некоторые из моих банков не обеспечивают загрузку транзакций / выписок, но они предоставляют доступ к этим выпискам на своих веб-сайтах.
Я сделал один штраф, но другой (HSBC UK) доказывает боль в заднице, поскольку его источник не является действительным XHTML. Например, перед тегом <?xml?>
есть пробел, и есть места, где вместо =
используется ==
между именем атрибута и его значением (например, <li class=="lastItem">
).
Конечно, когда я передаю эти данные в мой XmlDocument
, они бросают шаткое (точнее, исключение).
У меня такой вопрос: возможно ли ослабить требования для разбора XML в C #? Я знаю, что гораздо лучше решить эти проблемы в источнике - это абсолютно мое отношение, но вероятность того, что HSBC изменит свой веб-сайт, который уже работает в большинстве браузеров, - только для маленького меня.