У меня есть коллекция HTML-файлов, которые я собрал с веб-сайта с помощью wget.Каждое имя файла имеет вид details.php? Id = 100419 & cid = 13% 0D , где id и cid варьируются.Части html-файлов содержат статьи на азиатском языке (текст Unicode).Я намерен извлечь только текст на азиатском языке.Дамп рендеринга HTML с помощью браузера из командной строки - это первый шаг, о котором я подумал.Это устранит некоторые излишки.
Проблема в том, что я не могу вывести выведенный html в файл (используя, скажем, w3m -dump).Сброс работает, если только я направляю браузер (в командной строке) на правильно сформированный URL: http://<blah-blah>/<filename>
.Но так мне придется потратить время, чтобы загрузить файлы еще раз из Интернета.Как мне обойти это, какие другие инструменты я могу использовать?
w3m -dump <filename>
жалуется, говоря: w3m: Не удается загрузить details.php? Id = 100419 & cid = 13% 0D.
file <filname>
показывает: details.php? Id = 100419 & cid = 13% 0D: текст документа HTML с расширенным ASCII, не относящийся к ISO, с очень длинными строками, CRLF, CR, LF, строка NELтерминаторы