что такое команда в терминале для извлечения текста из файла - PullRequest
0 голосов
/ 23 декабря 2010

Кто-нибудь может мне сказать, чтобы я написал в терминале команду для извлечения текста из html-файла, используя такие теги, как

, , , , ... и т.д .. .and $ var = "strings" и функции javascript с использованием msgstring .... -> я думаю поместить эти теги в текстовый файл ... -> тогда я хочу сопоставить теги с помощью команды терминала ... -> тогда я должен поместить это в файл дампа (текст) ... потому что ... я хочу изменить текст с языковым предпочтением .... Я пытался с помощью сценария awk и egrep тоже .... но я получил плохой результат ...

Ответы [ 4 ]

1 голос
/ 23 декабря 2010

Выполнение этого с awk и egrep, вероятно, будет означать использование регулярных выражений для разбора HTML. Это плохая идея. Смотрите этот знаменитый ответ

Скорее используйте HTML-парсер. Смотрите другие ответы в ссылке выше для ссылок на HTML-парсеры.

Что касается разбора исходного кода PHP:

Поскольку он структурно похож на HTML, вы можете использовать (толерантный) анализатор HTML. В противном случае используйте синтаксический анализатор PHP. Смотрите, например этот ответ .

0 голосов
/ 23 декабря 2010

эй ... ребята ... я получил свой ответ .....

egrep -i -r -f myfile.txt [путь]> dumpdata.txt

егоработает ... но мне нужно больше разобрать .... очистка всех функций javascript и значения переменной php, содержащей строки ...

спасибо за все предложения.

предложить, если вызнаю точнее ....

0 голосов
/ 23 декабря 2010

Используйте регулярное выражение следующим образом:

perl -pne '/<strong>(.*)?<\/strong>/;' file

Конечно, ваше регулярное выражение будет более сложным, я думаю.

0 голосов
/ 23 декабря 2010

Вы можете уточнить свой вопрос (пример ввода и ожидаемый результат могут помочь). И под «командой в терминале» вы подразумеваете команду оболочки.

Это кажется нетривиальным, и вам может понадобиться написать скрипт оболочки. См. Расширенное руководство по написанию сценариев Bash . Но, как указал Слеске, я также рекомендую более продвинутый язык сценариев (perl / python).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...