Как разобрать таблицу c HTML с сайта на python - PullRequest
1 голос
/ 15 февраля 2020

Я новичок в изучении веб-страниц python. Я пытаюсь разобрать таблицу мест отправления культа на острове Лангкави. Это веб-сайт, на который я ссылаюсь http://www.jaik.gov.my/?page_id=658

Я ввел следующее в python: -

import requests

import lxml.html as lh

import pandas as pd

langkawi_url = 'http://www.jaik.gov.my/?page_id=658'

page = requests.get(langkawi_url)

doc = lh.fromstring(page.content)

tr_elements = doc.xpath('//td')

[len(T) for T in tr_elements[:12]]

tr_elements = doc.xpath('//tr')

col = []
i = 0

for t in tr_elements[0]:
    i+=1
    name=t.text_content()
    print("%d:%s" % (i,name))
    col.append((name,[]))

Видимо, вывод, который я получил это: -

1:Sun
2:Mon
3:Tue
4:Wed
5:Thu
6:Fri
7:Sat

Я надеялся получить это: -

1:BIL
2:KARIAH MASJID
3:ALAMAT
4:MUKIM

Ваши советы и рекомендации очень ценятся.

Спасибо!

1 Ответ

0 голосов
/ 15 февраля 2020

Попробуйте изменить код на что-то вроде:

tr_elements = doc.xpath('//td/strong')
col = []
for t in tr_elements:
    col.append(t.text)
print(col)

Вывод:

['BIL', 'KARIAH MASJID', 'ALAMAT', 'MUKIM']
...