Мне нужно прочитать много HTML-файлов, содержащих похожую структуру, используя perl.
Структура состоит из
STRRRR ... E
- S = заголовок html непосредственно перед началом таблицы
- T = уникальная начальная структура таблицы в html-файле (я могу ее идентифицировать)
- R = Группа html-элементов (это tr, я тоже могу их идентифицировать)
- E = Все остальное - объединяет конец R
Я хочу извлечь все R в массив, используя однострочный "m" perlop.
Я ищу что-то вроде этого:
@ all_Rs = $ htmlfile = ~ m {ST (R) * E} gs;
Но это никогда не получалось.
До сих пор я обдумывал способ сделать это, например, удалить ненужный текст, цикл и т. Д.
Я хочу извлечь все строки с этой страницы: http://www.trainenquiry.com/StaticContent/Railway_Amnities/Enquiry%20-%20North/STATIONS.aspx
и таких страниц много.