Исправить и нормализовать странные данные из Интернета - PullRequest
1 голос
/ 20 ноября 2011

Я сделал веб-сканер, который загружает много страниц, и теперь мне нужно обработать загруженные данные.

Проблема в том, что я получаю данные с большого количества страниц со всеми типами форматирования и ошибками.1004 * Я хочу иметь возможность исправить некоторые неправильные кодировки, удалить все непечатаемые символы и заменить некоторые символы другими (например, там много символов в кавычках. Я хочу заменить их на общие ").

Есть много вещей, которые нужно сделать. Я хочу знать, есть ли библиотека или что-то еще, что я могу использовать, или мне нужно мое решение для моих нужд.

Ответы [ 2 ]

0 голосов
/ 20 ноября 2011

Может быть, Tidy может помочь (http://tidy.sourceforge.net/) или Jsoup (http://jsoup.org/)

)

Вы можете оформить его в правильный формат (DOM) с помощью Tidy или Jsoup.

PS: я немного больше предпочитаю в Jsoup.

0 голосов
/ 20 ноября 2011

Я знаю, что вы уже выполнили какое-то сканирование, но я все же рекомендую вам сохранять данные с правильной кодировкой при сканировании. В противном случае данные могут быть потеряны перед их обработкой.

Для замены символов я бы написал свой собственный служебный класс с меньшими тестируемыми методами фильтрации, которые используют регулярное выражение regexp для внутреннего использования. У этих методов должны быть свои тесты, чтобы они работали как задумано.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...