В настоящее время пишется программа, которая с учетом URL сохранит копию HTML страницы в файле .txt, а затем попытается проанализировать эти файлы .txt на наличие гиперссылок в тегах.Пример:
<a href="http://www.example.com">Visit example.com!</a>
Сейчас все работает, кроме парсера.Я вывожу содержимое html файла в .txt.Затем я преобразую его в строку, а затем пытаюсь разобрать эту строку с помощью регулярных выражений и сохранить все гиперссылки в векторе.Я думаю, распечатать содержимое этого вектора.Код для секции синтаксического анализа моего кода выглядит следующим образом:
vector<string> extract_hyperlinks(string html_file_name )
{
static const regex hl_regex( "<a href=\"(.*?)\">", regex_constants::icase ) ;
const string text = file_to_string(html_file_name) ;
sregex_token_iterator begin( text.begin(), text.end(), hl_regex, 1 );
sregex_token_iterator end ;
return vector<string>( begin, end ) ;
}
Парсер не помещает ничего в вектор, даже если строка заполняется файлом .txt, преобразованным в строку, что явносодержит значения, такие как <a href="http://www.example.com">Visit example.com!</a>
.
Что я делаю не так и как я могу это исправить?