вычеркнуть все из сторон <img src = random.jpg> и <p>случайный текст </p> в html - PullRequest
0 голосов
/ 03 октября 2011

Я пытаюсь удалить данные с веб-страницы с помощью модуля c # http. Я просто хочу необработанный текст и изображения . Как я могу раздеть все остальное?

private static Regex reg = new Regex(@"<img src=\t????????");

public override void Write(byte[] buffer, int offset, int count)
    {
      byte[] data = new byte[count];
      Buffer.BlockCopy(buffer, offset, data, 0, count);
      string html = System.Text.Encoding.Default.GetString(buffer);

      html = reg.Replace(html, string.Empty);


      byte[] outdata = System.Text.Encoding.Default.GetBytes(html);
      _sink.Write(outdata, 0, outdata.GetLength(0));
    }

1 Ответ

1 голос
/ 03 октября 2011

Используйте анализатор HTML, такой как HtmlAgilityPack .

...