Самый быстрый способ - использовать XPath:
string(//div[@class='nabza'])
Затем регулярное выражение ([a-zA-Z0-9] +) для замены кодов di git пробелами.
В качестве альтернативы вы можете использовать этот XPath:
//div[@class='nabza']//*[not(self::span)]/text()
Не более десяти ди git код. Вы, вероятно, должны сделать некоторую очистку (проверьте, правильно ли объединены 473 части текста, проверьте \ r \ n, ...), и вы должны получить что-то вроде этого: https://paste2.org/mWhxzxpj
РЕДАКТИРОВАТЬ: R код:
library(RCurl)
library(XML)
page=getURL("https://www.neelwafurat.com/itempage.aspx?id=lbb179878-143056&search=books", httpheader = c('User-Agent' = "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:52.0) Gecko/20100101 Firefox/52.0"),.encoding = 'UTF-8')
parse=htmlParse(page,encoding = "UTF-8")
text=xpathSApply(parse,"//div[@class='nabza']//*[not(self::span)]/text()",xmlValue)
result=paste0(text,collapse = "")
writeLines(result,"result.txt",useBytes=T)