Есть ли простой способ в Linux, чтобы лишить сайт текста из командной строки? - PullRequest
6 голосов
/ 25 февраля 2010

Я искал инструмент командной строки, который превратил бы html-код в просто текст, который появился бы на сайте ... так что это было бы эквивалентно выбору в веб-браузере всего, а затем вставке его в текст редактор ...

Кто-нибудь знает что-то в Ubuntu, которое будет это делать? Я пытаюсь написать скрипт для разбора некоторых веб-страниц, но предпочел бы не иметь дело с HTML и предпочел бы просто разобрать текст, который появляется на сайте.

Спасибо

Dan

Ответы [ 3 ]

12 голосов
/ 25 февраля 2010
7 голосов
/ 25 февраля 2010

, если у вас уже есть html-файл:

lynx -dump file.html > file.txt

в противном случае используйте @ Ignacio's

3 голосов
/ 25 февраля 2010

я думаю тебе нужна рысь:

lynx -dump http://stackoverflow.com > file
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...