Я сделал веб-сканер, который загружает много страниц, и теперь мне нужно обработать загруженные данные.
Проблема в том, что я получаю данные с большого количества страниц со всеми типами форматирования и ошибками.1004 * Я хочу иметь возможность исправить некоторые неправильные кодировки, удалить все непечатаемые символы и заменить некоторые символы другими (например, там много символов в кавычках. Я хочу заменить их на общие ").
Есть много вещей, которые нужно сделать. Я хочу знать, есть ли библиотека или что-то еще, что я могу использовать, или мне нужно мое решение для моих нужд.