Я просматривал вопросы и получил лучшее представление о своей проблеме, но все же не нашел ответа.
У меня проблема с регулярными выражениями в PHP.Я пытаюсь получить весь текст в атрибутах "alt" HTML-файла.Я принимаю во внимание все возможные имена тегов (img, input и area) и все возможные варианты, такие как пробелы и разрывы строк между символами (например, <img alt = "Hello">
).Также следует помнить, что строка соответствия может быть заключена в одинарные или двойные кавычки и содержать другие (разные) кавычки, например: <img alt="Alan's picture">
или, <img alt='Example for the word "hello" in the text'>
.
. Это становится трудноя (я новичок с регулярными выражениями), так что я просто покажу вам, что я получил.Обратите внимание, что я пытаюсь использовать обратную ссылку внутри класса символов, что я считаю неправильной практикой (или я так думаю).
'/<\s*(?:img|input|area)\s[^>]*alt\s*=\s*("|\')([^\1>]*)\1[^>]*>/siU'
Я также виделв StackOverflow некоторые люди рекомендуют анализаторы HTML для подобных вещей, но меня беспокоит, сколько ресурсов может потреблять эта практика.Вы думаете, что это лучшая идея?Спасибо!