Разобрать HTML-теги в dict - PullRequest
       2

Разобрать HTML-теги в dict

0 голосов
/ 16 ноября 2018

У меня есть html-данные, которые почти анализируются с помощью BeautifulSoup, но я сталкиваюсь с вопросом, как определить время начала и окончания, поскольку они находятся рядом друг с другом.

Вот данные:

[u'Start', u'End', u'2018-11-14 05:00 GMT (Greenwich Mean Time)', u'2018-11-14 11:00 GMT (Greenwich Mean Time)', u'2018-11-14 00:00 EST (Eastern Standard Time)', u'2018-11-14 06:00 EST (Eastern Standard Time)', u'Customer Name', u'Circuit ID', u'Alt Circuit ID', u'Bandwidth', u'A Location', u'Z Location', u'Impact Type', u'Maximum Duration', u'Order Number', u'Status', u'COMPANY, LLC', u'BDKN1111', u'N/A', u'10GIG-E LAN', u'CT USA', u'KINGS MOUNTAIN', u'Outage', u'1 hour ', u'\xa0', u'Alternate Night', u'COMPANY, LLC', u'BDKN1112', u'N/A', u'10GIG-E LAN', u'BRISTOL', u'KINGS MOUNTAIN', u'Outage', u'1 hour ', u'\xa0', u'Alternate Night', u'COMPANY, LLC', u'BDKF1011', u'N/A', u'10GIG-E LAN', u'BRISTOL', u'OMAHA ', u'Outage', u'1 hour ', u'\xa0', u'Alternate Night']

Вот код: Данные над списком.

    for i in data:
        pattern = re.compile(r'([1-9]{4}|[0-9]{4})-([0-9]{2})-([0-9]{2}) ([0-9]{2}:[0-9]{2} GMT)')
        if re.search(pattern, i):
           match = re.search(pattern, i)
           match = match.group().split()
           output["startdate"] = match[0]
           if match[1] not in output["endtime"]:
             output["endtime"] = match[1:-1]

Попытка получить начальные данные и время, а также конечные данныеи время.По какой-то причине это перезаписывает предыдущее значение.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...