Как сделать HTML-файл в автономном режиме? - PullRequest
1 голос
/ 16 ноября 2010

У меня есть коллекция HTML-файлов, которые я собрал с веб-сайта с помощью wget.Каждое имя файла имеет вид details.php? Id = 100419 & cid = 13% 0D , где id и cid варьируются.Части html-файлов содержат статьи на азиатском языке (текст Unicode).Я намерен извлечь только текст на азиатском языке.Дамп рендеринга HTML с помощью браузера из командной строки - это первый шаг, о котором я подумал.Это устранит некоторые излишки.

Проблема в том, что я не могу вывести выведенный html в файл (используя, скажем, w3m -dump).Сброс работает, если только я направляю браузер (в командной строке) на правильно сформированный URL: http://<blah-blah>/<filename>.Но так мне придется потратить время, чтобы загрузить файлы еще раз из Интернета.Как мне обойти это, какие другие инструменты я могу использовать?

w3m -dump <filename> жалуется, говоря: w3m: Не удается загрузить details.php? Id = 100419 & cid = 13% 0D.

file <filname> показывает: details.php? Id = 100419 & cid = 13% 0D: текст документа HTML с расширенным ASCII, не относящийся к ISO, с очень длинными строками, CRLF, CR, LF, строка NELтерминаторы

...