RegEx для соответствия тегов img в Ruby - PullRequest
0 голосов
/ 14 мая 2019

У меня есть две строки, как:

<p class="pic"><img src="image/pic003.jpg" alt="" class="w21em" /></p>

<p class="footnote">oremIpsum loremIpsum oremIpsum loremIpsum<img src="image/pic027.jpg" alt="" class="w0em2" />oremIpsum loremIpsum<img src="image/pic028.jpg" alt="" class="w0em2" />`

Для первого должно возвращаться:

[<img src="image/pic003.jpg" alt="" class="w21em" />] 

и для второго должно быть

[<img src="image/pic027.jpg" alt="" class="w0em2" />, [<img src="image/pic028.jpg" alt="" class="w0em2" />

Для этого я написал regEx, например, para.scan(/\<img.*\>?/), который выводит первый, например,

.
["<img src=\"image/pic003.jpg\" alt=\"\" class=\"w21em\" /></p>"]

и второй как

["<img src=\"image/pic027.jpg\" alt=\"\" class=\"w0em2\" />loremIpsum loremIpsum1/<img src=\"image/pic028.jpg\" alt=\"\" class=\"w0em2\" /> </p>"]

Как мне решить эту проблему?

Ответы [ 2 ]

1 голос
/ 14 мая 2019

Попробуйте этот шаблон регулярных выражений: <img[^>]+\/>.

Он будет соответствовать любому самозакрывающемуся тегу img, а затем всему, что не является символом >, чтобы закрыть тег. \/> в конце шаблона будет соответствовать закрывающему тегу SELF <img {anything not >} />

0 голосов
/ 14 мая 2019

RegEx

Вы можете создавать / изменять / изменять выражения в regex101.com :

((<img)([A-Za-z0-9"'=_\-.\/\s]+)(\/>))

Один из способов сделать это - перечислить все ваши персонажи в группе захвата:

([A-Za-z0-9"'=_\-.\/\s]+)

Вы также можете изменить правую границу (\/>) на случай, если в них может отсутствовать косая черта.

enter image description here

RegEx Circuit

Вы можете визуализировать свои выражения в jex.im :

enter image description here

Демонстрация JavaScript

const regex = /((<img)([A-Za-z0-9"'=_\-.\/\s]+)(\/>))/gm;
const str = `<p class="pic"><img src="image/pic003.jpg" alt="" class="w21em" /></p>

<p class="footnote">oremIpsum loremIpsum oremIpsum loremIpsum<img src="image/pic027.jpg" alt="" class="w0em2" />oremIpsum loremIpsum<img src="image/pic028.jpg" alt="" class="w0em2" />\``;
let m;

while ((m = regex.exec(str)) !== null) {
    // This is necessary to avoid infinite loops with zero-width matches
    if (m.index === regex.lastIndex) {
        regex.lastIndex++;
    }
    
    // The result can be accessed through the `m`-variable.
    m.forEach((match, groupIndex) => {
        console.log(`Found match, group ${groupIndex}: ${match}`);
    });
}

Ruby Test

re = /((<img)([A-Za-z0-9"'=_\-.\/\s]+)(\/>))/m
str = '<p class="pic"><img src="image/pic003.jpg" alt="" class="w21em" /></p>

<p class="footnote">oremIpsum loremIpsum oremIpsum loremIpsum<img src="image/pic027.jpg" alt="" class="w0em2" />oremIpsum loremIpsum<img src="image/pic028.jpg" alt="" class="w0em2" />`'

# Print the match result
str.scan(re) do |match|
    puts match.to_s
end
...