Разбор HTML-пакета Agility с тегами верхнего и нижнего регистра? - PullRequest
4 голосов
/ 25 апреля 2011

Я пользуюсь HTML Agility Pack, и я действительно впечатлен им - однако я выбираю контент вот так

doc.DocumentNode.SelectSingleNode("//body").InnerHtml

Как мне разобраться со следующей ситуацией, с разными документами?

<body>
<Body>
<BODY>

Будет ли мой код выше получать только строчные версии?

1 Ответ

17 голосов
/ 25 апреля 2011

Html Agility Pack обрабатывает HTML без учета регистра. Это означает, что он будет анализировать ТЕЛО, Тело и тело одинаково. Это сделано специально, так как HTML не чувствителен к регистру (XHTML).

Тем не менее, когда вы используете функцию XPATH, вы должны использовать теги, написанные строчными буквами. Это означает, что выражение "//body" будет соответствовать BODY, Body и body, а "// BODY" ничего не будет соответствовать.

...