регулярное выражение [R] "О 52,883,038 результатах" - PullRequest
0 голосов
/ 01 ноября 2011

Я хочу проанализировать html-страницу (в частности, страницу результатов поиска Google). Искать конкретную строку счетчика

"О * многих результатах"

где *many может варьироваться от 0 до 999,999,999,999 результатов

grep ("О [0-9] результатах", файл)

Я не могу понять, как включитьдиапазон чисел (включая запятые) в регулярном выражении.Кто-нибудь может уточнить?Я искал похожие вопросы, опубликованные, но их коды не работают для этой задачи.

Я предполагаю ввести какой-то подстановочный знак "."но я не думаю, что я использую это правильно Структура, которую я имел в виду, была

Any # Times {{Any # Times ([0-9])}},}

Решил собственный вопрос ... вовсе не нужно было придумывать

"Около. * Результаты"

отлично работает

1 Ответ

0 голосов
/ 03 марта 2012

В зависимости от содержимого страницы ваш. * Работает, но может получить очень длинную и неправильную строку.

Если вы хотите убедиться, что получаете только цифры, попробуйте:

"About ([0-9]+|[0-9]{1,3}(,[0-9]{3})*) results"

Я протестировал его с grep -E, и он даст вам разгруппированные числа:

About 10000000 results

, а также сгруппированные числа с использованием британских / английских соглашений:

About 100,000 results

но не числа:

About a bajillion results

или плохо сгруппированные номера:

About 100,0 results
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...