Вы путаетесь между экранированием HTML / XML и UTF-8 / Unicode.
Если страница является действительным XML, жизнь будет проще - вы можете просто проанализировать ее, как любой другой документ XML, а затем просто получить соответствующие текстовые узлы ... все экранирование XML будет "не экранировано", когда вы получите текст.
Если он произвольный - и, возможно, недействительный - HTML, то жизнь немного сложнее. Возможно, вы захотите сначала нормализовать его в действительный HTML, а затем проанализировать и снова запросить текстовые узлы.
Если вы можете дать нам более конкретный пример, вам будет легче дать вам совет.
Метод HtmlDecode
, предложенный в других ответах, вполне может быть всем, что вам нужно, но вы должны обязательно попытаться понять, что происходит в первую очередь. Например, вы можете захотеть только декодировать определенные фрагменты HTML - если вы декодируете весь документ, то вы можете получить текст, который выглядит , он содержит как теги HTML, но на самом деле просто содержал текст в оригинальном документе.