Мне нужно выполнить поиск всех знаков препинания в содержании языка разметки.
Мой ввод Пример содержимого:
__DATA__
Kerala unterscheidet smtp: // suriya@edu/tester sich von anderen indischen netftp: // suriya@edu Bundesstaaten: Es ist sauberer, der;Verkehr
nicht so.chaotisch
, und Kirchen säumen d ie Штрассен. D ie Регион Айнмалиг Махен Абер d ie Подпоры www.cochin.org
Я использую [[:punct:]]
, однако эти узлы будут извлекать все вхождения в содержимом.
my $text = do { local $/; <DATA> };
while($text=~m/(.){5}[[:punct:]](.){10}/g)
{
print "L: $&\n";
}
Вывод
k rel="styleshee
type="text/css"
href="../styles
g src="../images
17873_140_1.jpg"
alt="image" cla
s nat&x00FC;rlic
xmlns="http://ww
3.org/1999/xhtml
" xml:lang="de"
ioses:Zeugnis na
x00FC;rlicher Pe
ugnis.nat&x00FC;
Но мне нужно опустить пунктуацию в атрибутах элементов и их значениях. Как я могу перечислить пунктуацию, которая доступна в содержании.
Избегать: www.w3.org
и "../styles/97
Необходимо найти: der;Verkeh
и so.chaotisch
Вопрос обновлен:
Не удаляйте контент или html элементы, чтобы получить знаки препинания в строке, поскольку нам нужно получить точный номер строки и точный номер столбца. Если мы удалили номер столбца html, необходимо изменить номер.
Может ли кто-нибудь помочь мне в этом.