Я работаю над извлечением текста из HTML-документов и хранением в базе данных.Я использую инструмент webharvest для извлечения контента.Однако я застрял на месте.Внутри webharvest я использую XQuery-выражение для извлечения данных.HTML-документ, который я анализирую, выглядит следующим образом:
<td><a name="hw">HELLOWORLD</a>Hello world</td>
Мне нужно извлечь текст «Hello world» из приведенного выше HTML-скрипта.
Я попытался извлечь текст таким способом:
$hw :=data($item//a[@name='hw']/text())
Однако я всегда получаю «HELLOWORLD» вместо «Hello world».
Есть ли способ извлечь «Hello World».Пожалуйста, помогите.
Что если я хочу сделать это следующим образом:
<td>
<a name="hw1">HELLOWORLD1</a>Hello world1
<a name="hw2">HELLOWORLD2</a>Hello world2
<a name="hw3">HELLOWORLD3</a>Hello world3
</td>
Я хотел бы извлечь текст Hello world 2, который находится в betweeb hw2 и hw3.Я бы не хотел использовать text () [3], но есть ли какой-нибудь способ, которым я мог бы извлечь текст между / a [@ name = 'hw2'] и /a[@name='hw3'].