Я пишу сканер веб-страниц, и мне нужно знать все ссылки на странице, которые будут выплевывать мне mimetype text / html, если бы я посетил эту ссылку (без фактического запроса). Я выполняю это, просто просматривая тип файла и проверяя, находится ли он в списке типов файлов, которые, как я знаю, будут иметь тип mime html:
link = urlsplit(url)
extension = link.path.lower().split('.')[-1]
# check if they gave us a directory (which spits out a .html index)
if "/" in extension or extension == "php" or extension == "aspx" or extension == "asp":
extension = "html"
Итак, у меня есть .html, .php, .aspx и .asp. Что еще там?
P.S. Я в курсе, как работают заголовки контента и типы пантомимы и все это работает. Я знаю, что это не идеально, но для меня нереально получить тип контента для каждой ссылки, с которой я сталкиваюсь. Поэтому, пожалуйста, просто помогите мне, перечислив общие типы файлов, которые обслуживают типы mime html. Мне не нужна помощь в представлении всех сценариев, когда это даст мне неправильный ответ, потому что это незначительно для моих целей и не помогает мне.