Я пытаюсь извлечь ссылки PDF из этой ССЫЛКИ На этой странице есть три темы, каждая из которых отображается методом свертывания, а под каждой топикой c есть подтемы (месяцы в Календарь хиджры). Под каждой подзаголовком c есть ссылки в формате PDF. Как извлечь эти ссылки в упорядоченные столбцы: столбец A предназначен для тем, столбец B - для подтем, а столбец C - для ссылок PDF?
При попытке использовать этот код
Sub Demo()
Dim intFF As Integer: intFF = FreeFile()
Dim iFile As String: iFile = "C:\Test\HTML.txt"
Dim html As HTMLDocument
Open iFile For Input As #intFF
strContent = Input(LOF(intFF), intFF)
Close #intFF
Set html = New HTMLDocument
With html
.body.innerHTML = strContent
Set x = .getElementsByTagName("a")
For i = 0 To x.Length - 1
If x(i).getAttribute("data-parent") Like "*accordion1" Then
Debug.Print x(i).innerText
End If
If x(i).getAttribute("data-parent") Like "*accordion2" Then
Debug.Print x(i).innerText
End If
Next
End With
End Sub
Первая проблема: символы арабского c отображаются неправильно. И еще один момент, который приносит только первые основные темы c, и есть две другие основные темы.
А вот HTML на случай, если ссылка не работает для вас https://drive.google.com/open?id=1lJ7U1z3vOWz4pfbhdKi31_q674rcnuxR