Regex для извлечения URL-адресов из атрибута href на основе имени пользователя - PullRequest
0 голосов
/ 11 апреля 2019

Я пытаюсь извлечь все ссылки, которые приходят после определенного пользователя, но мое регулярное выражение захватывает только одну ссылку:

HTML:

<div class="from_name">
   USERNAME
</div>
<div class="media_wrap clearfix">
   <div class="media clearfix pull_left media_photo">
      <div class="fill pull_left">
      </div>
      <div class="text">
         <a href="https://google.com</a>
      </div>
   </div>
   <div class="text">
      <a href="https://yahoo.com</a>
   </div>
</div>

Коды:

preg_match_all('/USERNAME[\s\S]*?href="(.*?)</', $data, $matches);

print_r($matches);

// вывод, это только caputre google.com:

Array
(
    [0] => Array
        (
            [0] => FullCapture

    [1] => Array
        (
            [0] => https://google.com
        )

)

Ответы [ 2 ]

0 голосов
/ 11 апреля 2019

Можете ли вы использовать два регулярных выражения?Во-первых, чтобы сопоставить всю область с ИМЯ ПОЛЬЗОВАТЕЛЯ, а во-вторых, чтобы сопоставить URL.

preg_match('/(?<=USERNAME).*(?<=href=").*?</s', $string, $matches);

preg_match_all('/(?<=href=").*?(?=<)/', $matches[0], $newMatches);

var_dump($newMatches);

Это дает вам:

array(1) {
  [0]=>
  array(2) {
    [0]=>
    string(18) "https://google.com"
    [1]=>
    string(17) "https://yahoo.com"
  }
}
0 голосов
/ 11 апреля 2019

К сожалению, я не знаком с мессенджером телеграммы.Не я почти уверен, что ваша проблема не может быть решена (легко) с помощью регулярного выражения.Есть слишком много исключений из правила.Поэтому я предоставлю 2 варианта:

  1. Используйте правильный анализатор HTML, выбросьте то, что вам так не нужно, запишите соответствующую информацию.

  2. Используйте взломать

    • Разобрать HTML
      • выбросить все, что не приносит релевантной информации
      • у вас получится список имен и ссылок
    • если за именем следует другое имя, удалите его, так как оно не имеет ссылок;
    • загружает все, что остается в массиве, со ссылками, связанными с их репрезентативными пользователями.

После синтаксического анализа вы получите структуру, аналогичную следующей:

  • name
    • link
    • link
  • имя <--- вы удалите это, прежде чем загружать данные в массив </li>
  • имя
    • ссылка
  • ...

Вы можете выполнить этот анализ и удаление, используя строковые функции или даже регулярные выражения.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...