Читать арабские c символов с веб-страницы - PullRequest
0 голосов
/ 24 февраля 2020

Я пытаюсь извлечь ссылки PDF из этой ССЫЛКИ На этой странице есть три темы, каждая из которых отображается методом свертывания, а под каждой топикой c есть подтемы (месяцы в Календарь хиджры). Под каждой подзаголовком c есть ссылки в формате PDF. Как извлечь эти ссылки в упорядоченные столбцы: столбец A предназначен для тем, столбец B - для подтем, а столбец C - для ссылок PDF?

При попытке использовать этот код

Sub Demo()
Dim intFF As Integer: intFF = FreeFile()
Dim iFile As String: iFile = "C:\Test\HTML.txt"
Dim html As HTMLDocument
Open iFile For Input As #intFF
strContent = Input(LOF(intFF), intFF)
Close #intFF

Set html = New HTMLDocument

With html
.body.innerHTML = strContent
Set x = .getElementsByTagName("a")
For i = 0 To x.Length - 1
    If x(i).getAttribute("data-parent") Like "*accordion1" Then
        Debug.Print x(i).innerText
    End If
    If x(i).getAttribute("data-parent") Like "*accordion2" Then
        Debug.Print x(i).innerText
    End If
Next
End With
End Sub

Первая проблема: символы арабского c отображаются неправильно. И еще один момент, который приносит только первые основные темы c, и есть две другие основные темы.

А вот HTML на случай, если ссылка не работает для вас https://drive.google.com/open?id=1lJ7U1z3vOWz4pfbhdKi31_q674rcnuxR

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...