Question

Как лучше всего проверить, соответствует ли документ какой-либо версии HTML (желательно, чтобы я указывал)? Я хотел бы знать, где происходят сбои, как в веб-валидаторе, кроме как в собственном приложении Python.

Dave Brondsema · Answer 1 · 14 августа 2009

PyTidyLib - это хорошая привязка Python для HTML Tidy. Их пример:

from tidylib import tidy_document
document, errors = tidy_document('''<p>f&otilde;o <img src="bar.jpg">''',
    options={'numeric-entities':1})
print document
print errors

Более того, он совместим с устаревшей HTML Tidy и new tidy-html5 .

Martin Hepp · Answer 2 · 09 мая 2012

Я думаю, что самый элегантный способ вызвать службу валидации W3C на

http://validator.w3.org/

программно. Мало кто знает, что вам не нужно просматривать результаты, чтобы получить результаты, потому что сервис возвращает нестандартные параметры заголовка HTTP

X-W3C-Validator-Recursion: 1
X-W3C-Validator-Status: Invalid (or Valid)
X-W3C-Validator-Errors: 6
X-W3C-Validator-Warnings: 0

для указания достоверности и количества ошибок и предупреждений.

Например, командная строка

curl -I "http://validator.w3.org/check?uri=http%3A%2F%2Fwww.stalsoft.com"

1012 * возвращается *

HTTP/1.1 200 OK
Date: Wed, 09 May 2012 15:23:58 GMT
Server: Apache/2.2.9 (Debian) mod_python/3.3.1 Python/2.5.2
Content-Language: en
X-W3C-Validator-Recursion: 1
X-W3C-Validator-Status: Invalid
X-W3C-Validator-Errors: 6
X-W3C-Validator-Warnings: 0
Content-Type: text/html; charset=UTF-8
Vary: Accept-Encoding
Connection: close

Таким образом, вы можете элегантно вызвать службу проверки W3C и извлечь результаты из заголовка HTTP:

# Programmatic XHTML Validations in Python
# Martin Hepp and Alex Stolz
# mhepp@computer.org / alex.stolz@ebusiness-unibw.org

import urllib
import urllib2

URL = "http://validator.w3.org/check?uri=%s"
SITE_URL = "http://www.heppnetz.de"

# pattern for HEAD request taken from 
# http://stackoverflow.com/questions/4421170/python-head-request-with-urllib2

request = urllib2.Request(URL % urllib.quote(SITE_URL))
request.get_method = lambda : 'HEAD'
response = urllib2.urlopen(request)

valid = response.info().getheader('X-W3C-Validator-Status')
if valid == "Valid":
    valid = True
else:
    valid = False
errors = int(response.info().getheader('X-W3C-Validator-Errors'))
warnings = int(response.info().getheader('X-W3C-Validator-Warnings'))

print "Valid markup: %s (Errors: %i, Warnings: %i) " % (valid, errors, warnings)

karlcow · Answer 3 · 15 марта 2009

Вы можете решить установить HTML-валидатор локально и создать клиент для запроса валидации.

Здесь я создал программу для проверки списка URL в текстовом файле. Я просто проверял HEAD, чтобы получить статус проверки, но если вы сделаете GET, вы получите полный результат. Посмотрите на API валидатора, есть много вариантов для него.

import httplib2
import time

h = httplib2.Http(".cache")

f = open("urllistfile.txt", "r")
urllist = f.readlines()
f.close()

for url in urllist:
   # wait 10 seconds before the next request - be nice with the validator
   time.sleep(10)
   resp= {}
   url = url.strip()
   urlrequest = "http://qa-dev.w3.org/wmvs/HEAD/check?doctype=HTML5&uri="+url
   try:
      resp, content = h.request(urlrequest, "HEAD")
      if resp['x-w3c-validator-status'] == "Abort":
         print url, "FAIL"
      else:
         print url, resp['x-w3c-validator-status'], resp['x-w3c-validator-errors'], resp['x-w3c-validator-warnings']
   except:
      pass

John Millikin · Answer 4 · 30 августа 2008

XHTML прост, используйте lxml .

HTML сложнее, поскольку традиционно не было такого большого интереса к проверке среди толпы HTML (запустите сам StackOverflow через валидатор, да). Самым простым решением было бы выполнить внешние приложения, такие как nsgmls или OpenJade , а затем проанализировать их вывод.

Aaron Maenpaa · Answer 5 · 30 августа 2008

Попробуйте tidylib. Вы можете получить некоторые действительно базовые привязки как часть модуля elementtidy (строит деревья элементов из документов HTML). http://effbot.org/downloads/#elementtidy

>>> import _elementtidy
>>> xhtml, log = _elementtidy.fixup("<html></html>")
>>> print log
line 1 column 1 - Warning: missing <!DOCTYPE> declaration
line 1 column 7 - Warning: discarding unexpected </html>
line 1 column 14 - Warning: inserting missing 'title' element

Анализ журнала должен дать вам почти все, что вам нужно.

Neall · Answer 6 · 30 августа 2008

Я думаю, что HTML tidy будет делать то, что вы хотите. Для этого есть привязка Python.

speedplane · Answer 7 · 25 октября 2016

Это очень простой валидатор HTML, основанный на HTMLParser lxml. Не требует подключения к интернету.

_html_parser = None
def validate_html(html):
    global _html_parser
    from lxml import etree
    from StringIO import StringIO
    if not _html_parser:
        _html_parser = etree.HTMLParser(recover = False)
    return etree.parse(StringIO(html), _html_parser)

Обратите внимание, что это не будет проверять закрывающие теги, поэтому, например, пройдет следующее:

validate_html("<a href='example.com'>foo</a>")

Тем не менее, следующее:

validate_html("<a href='example.com'>foo</a")

user1183098 · Answer 8 · 05 сентября 2016

В моем случае пакеты проверки Python W3C / HTML не работали pip search w3c (по состоянию на сентябрь 2016 г.).

Я решил это с помощью

$ pip install requests

$ python
Python 2.7.12 (default, Jun 29 2016, 12:46:54)
[GCC 4.2.1 Compatible Apple LLVM 6.0 (clang-600.0.57)] on darwin
Type "help", "copyright", "credits" or "license" for more information.

>>> r = requests.post('https://validator.w3.org/nu/', 
...                    data=file('index.html', 'rb').read(), 
...                    params={'out': 'json'}, 
...                    headers={'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.101 Safari/537.36', 
...                    'Content-Type': 'text/html; charset=UTF-8'})

>>> r.text
>>> u'{"messages":[{"type":"info", ...

>>> r.json()
>>> {u'messages': [{u'lastColumn': 59, ...

Больше документации здесь Python-запросы , W3C Validator API

Проверить (X) HTML в Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 8 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Проверить (X) HTML в Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 8 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов