Учитывая эту команду curl:
curl --user-agent "fogent" --silent -o page.html "http://www.google.com/search?q=insansiate"
* Правописание намеренно неверно. Я хочу взять предложение как мой результат.
Я хочу иметь возможность либо войти в файл page.html, возможно, с помощью grep -oE, либо передать его прямо из curl и никогда не сохранять файл.
Результат должен быть: 'instantiate'
Мне нужно только слово 'instantiate', или фраза, независимо от того, что google автоматически исправляет, это то, что я ищу.
Вот основной html, который возвращается:
<span class=spell style="color:#cc0000">Did you mean: </span><a href="/search?hl=en&ie=UTF-8&&sa=X&ei=VEMUTMDqGoOINraK3NwL&ved=0CB0QBSgA&q=instantiate&spell=1"class=spell><b><i>instantiate</i></b></a> <span class=std>Top 2 results shown</span>
Так что, возможно, от / до приведенной ниже строки, которая, я надеюсь, достаточно уникальна, чтобы охватить все мои базы.
class=spell><b><i>instantiate</i></b></a>
У меня постоянно возникают проблемы с жадным grep; возможно, я должен запустить его через инструмент предварительного преобразования HTML, чтобы получить разрыв строки или 50 там. Я не знаю ни одного простого способа сделать это в bash, и я бы хотел, чтобы это было в идеале. Я действительно не хочу иметь дело с запуском Perl и проверкой наличия правильного модуля.
Есть предложения, спасибо?