Я пытаюсь извлечь заголовок, описание и адрес из текста различных веб-сайтов. В настоящее время я занимаюсь поиском в Интернете, который извлекает информацию, указанную выше. Однако у меня возникают проблемы при создании регулярного выражения, соответствующего ожидаемому текстовому выводу, который я хочу получить ниже.
Могу ли я узнать, как улучшить свое регулярное выражение и встроить предлагаемый набор правил чтобы встретить и извлечь информацию выше?
My Regex:
(^.+\n)(^.+\n)?(^\d+.*\d{6})
Набор правил для встраивания:
First line (title)
- can contain any alphabets and numbers
- should not contain dot(.)
Second line (description or additonal information)
- can contain any alphabets and numbers
- should contain dot(.)
- second line can be empty
- if its empty then extract the first line which is the title
Third line (address)
- address extraction
Ввод текста:
View store information
TAMPINES MART
11559.33Km Away,
5 TAMPINES ST 32, #01-07/16 TAMPINESS MART, 529284
67817232
Open Now
Full Menu
View store information
THE SIGNATURE
The SIGNATURE is a wonderful destination for shopping text.
51, CHANGI BUSINESS PARK CENTRAL 2, #01-15, THE SIGNATURE, 486066
65883667
Open Now
Full Menu
Jewel Changi Airport
Jewel Changi Airport is a breath-taking place for families text.
78 Airport Boulevard, #B2-275-277 Jewel Changi Airport, Singapore, 819666
Ожидаемый вывод текста: (в идеале)
TAMPINES MART
11559.33Km Away,
5 TAMPINES ST 32, #01-07/16 TAMPINESS MART, 529284
THE SIGNATURE
11559.97Km Away,
51, CHANGI BUSINESS PARK CENTRAL 2, #01-15, THE SIGNATURE, 486066
Jewel Changi Airport
78 Airport Boulevard, #B2-275-277 Jewel Changi Airport, Singapore, 819666