Вот регулярное выражение, дающее ожидаемый результат в regex101:
https://regex101.com/r/Xt2mPR/1
Вот регулярное выражение, терпящее неудачу в R:
str = "<li>\n<a href=\"/kegg-bin/show_pathway?157287994040797/ko00998.args\" target=\"_blank\">ko00998</a> Biosynthesis of secondary metabolites - other antibiotics (<a href=\"javascript:display('ko00998')\">1</a>)\n<div id=\"objectko00998\" class=\"object\">\n <a href=\"/dbget-bin/www_bget?ko:K02078\" target=\"_blank\">ko:K02078</a> acpP; acyl carrier protein\n</div>\n</li>"
print(str)
#> [1] "<li>\n<a href=\"/kegg-bin/show_pathway?157287994040797/ko00998.args\" target=\"_blank\">ko00998</a> Biosynthesis of secondary metabolites - other antibiotics (<a href=\"javascript:display('ko00998')\">1</a>)\n<div id=\"objectko00998\" class=\"object\">\n <a href=\"/dbget-bin/www_bget?ko:K02078\" target=\"_blank\">ko:K02078</a> acpP; acyl carrier protein\n</div>\n</li>"
grep('\\/a>(.*)\\(<a', '\\1', str)
#> integer(0)
grep('\\/a>(.*)\\(<a', '\\1', str, perl=T)
#> integer(0)
Созданона 2019-11-04 по представьте пакет (v0.3.0)
Я хочу, чтобы текст: "Биосинтез вторичных метаболитов - другие антибиотики"
РЕДАКТИРОВАТЬ:
Код, который я использовал для получения строки:
> scraped = read_html('https://www.genome.jp/kegg-bin/search_pathway_object?org_name=ko&unclassified=K02078')
> scraped %>% html_node('.box2') %>% html_nodes('li') %>% .[[1]] %>% as.character()
[1] "<li>\n<a href=\"/kegg-bin/show_pathway?157288982462113/ko00998.args\" target=\"_blank\">ko00998</a> Biosynthesis of secondary metabolites - other antibiotics (<a href=\"javascript:display('ko00998')\">1</a>)\n<div id=\"objectko00998\" class=\"object\">\n <a href=\"/dbget-bin/www_bget?ko:K02078\" target=\"_blank\">ko:K02078</a> acpP; acyl carrier protein\n</div>\n</li>"
РЕДАКТИРОВАТЬ 2
Спасибо за помощь. Я использовал это здесь: https://github.com/ohsu-microbiome/kegg_http_tools