Как я могу удалить все HTML из записей базы данных, чем создать файл XML? - PullRequest
0 голосов
/ 16 ноября 2009

Я пытаюсь найти способ вырезать все HTML-теги из записей в базе данных, а затем создать XML?

Есть идеи?

Построен на asp.net 2.0 с сервером sql

Ответы [ 3 ]

1 голос
/ 16 ноября 2009

Проверьте этот вопрос: Использование регулярных выражений C # для удаления тегов HTML . Что именно вы имели в виду, создавая xml?

0 голосов
/ 16 ноября 2009

Не разбирайте HTML с базой данных или с sql. Вместо этого удалите его на последней миле в коде приложения с помощью скребка.

Google это: " HTML Scraper ". Инструменты очистки экрана HTML читают контент HTML и выводят контент, кроме HTML. Или, в качестве альтернативы, переполнение стека: « Экранная очистка HTML ».

0 голосов
/ 16 ноября 2009

Почему бы просто не проанализировать страницу, убедившись, что вы превратили ее в дерево DOM, а затем просто пройтись по элементам, извлекая соответствующие значения, которые вам нужны, и, возможно, любые атрибуты, которые вы считаете необходимыми.

Если вы написали html-файлы, они должны быть правильно сформированы, так что это будет легко.

...