Question

Рассмотрим следующие URL

http://m3u.com/tunein.m3u
http://asxsomeurl.com/listen.asx:8024
http://www.plssomeotherurl.com/station.pls?id=111
http://22.198.133.16:8024

Как правильно определить расширения файлов (.m3u / .asx / .pls)? Очевидно, что последний не имеет расширения файла.

EDIT: я забыл упомянуть, что m3u / asx / pls являются плейлистами (текстовыми файлами) для аудиопотоков и должны анализироваться по-разному Цель - определить расширение, а затем отправить URL-адрес соответствующей функции синтаксического анализа. Например.

<code>
url = argv[1]
ext = GetExtension(url)
if ext == "pls":
  realurl = ParsePLS(url)
elif ext == "asx":
  realurl = ParseASX(url)
(etc.)
else:
  realurl = url
Play(realurl)

GetExtension () должен возвращать расширение файла (если есть), желательно без подключения к URL.

payne · Answer 1 · 24 января 2011

Используйте urlparse для анализа пути из URL, затем os.path.splitext, чтобы получить расширение.

import urlparse, os

url = 'http://www.plssomeotherurl.com/station.pls?id=111'
path = urlparse.urlparse(url).path
ext = os.path.splitext(path)[1]

Обратите внимание, что расширение может не являться надежным индикатором типа файла. Заголовок HTTP Content-Type может быть лучше.

Seth · Answer 2 · 17 февраля 2014

Это проще всего с requests и mimetypes:

import requests
import mimetypes

response = requests.get(url)
content_type = response.headers['content-type']
extension = mimetypes.guess_extension(content_type)

Расширение включает префикс точки.Например, extension равно '.png' для типа контента 'image/png'.

Greg Hewgill · Answer 3 · 24 января 2011

Правильный способ real - вообще не использовать расширения файлов. Выполните запрос GET (или HEAD) к соответствующему URL-адресу и используйте возвращенный HTTP-заголовок «Content-type», чтобы получить тип содержимого. Расширения файлов ненадежны.

См. Мультимедийный справочник MIME для получения списка полезных типов MIME.

Laurence Gonsalves · Answer 4 · 24 января 2011

Расширения файлов практически не имеют смысла в URL.Например, если вы переходите к http://code.google.com/p/unladen-swallow/source/browse/branches/release-2009Q1-maint/Lib/psyco/support.py?r=292, хотите ли вы, чтобы расширение было ".py", несмотря на тот факт, что страница является HTML, а не Python?

Используйте заголовок Content-Type для определения«тип» URL.

Corey Goldberg · Answer 5 · 24 января 2011

$ python3
Python 3.1.2 (release31-maint, Sep 17 2010, 20:27:33) 
[GCC 4.4.5] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> from os.path import splitext
>>> from urllib.parse import urlparse 
>>> 
>>> urls = [
...     'http://m3u.com/tunein.m3u',
...     'http://asxsomeurl.com/listen.asx:8024',
...     'http://www.plssomeotherurl.com/station.pls?id=111',
...     'http://22.198.133.16:8024',
... ]
>>> 
>>> for url in urls:
...     path = urlparse(url).path
...     ext = splitext(path)[1]
...     print(ext)
... 
.m3u
.asx:8024
.pls

>>>

DDC · Answer 6 · 16 марта 2011

Чтобы получить тип контента, вы можете написать функцию, подобную той, что я написал, используя urllib2 Если вам все равно нужно использовать содержимое страницы, вероятно, вы будете использовать urllib2, поэтому нет необходимости импортировать os.

import urllib2

def getContentType(pageUrl):
    page = urllib2.urlopen(pageUrl)
    pageHeaders = page.headers
    contentType = pageHeaders.getheader('content-type')
    return contentType

Supergnaw · Answer 7 · 25 июня 2018

Другой подход, который не учитывает ничего другого, кроме фактического расширения файла из URL:

def fileExt( url ):
    # compile regular expressions
    reQuery = re.compile( r'\?.*$', re.IGNORECASE )
    rePort = re.compile( r':[0-9]+', re.IGNORECASE )
    reExt = re.compile( r'(\.[A-Za-z0-9]+$)', re.IGNORECASE )

    # remove query string
    url = reQuery.sub( "", url )

    # remove port
    url = rePort.sub( "", url )

    # extract extension
    matches = reExt.search( url )
    if None != matches:
        return matches.group( 1 )
    return None

edit: добавлена обработка явных портов из: 1234

tom mike · Answer 8 · 11 мая 2018

вы можете попробовать модуль rfc6266 , например:

import requests
import rfc6266

req = requests.head(downloadLink)
headersContent = req.headers['Content-Disposition']
rfcFilename = rfc6266.parse_headers(headersContent, relaxed=True).filename_unsafe
filename = requests.utils.unquote(rfcFilename)

Spacedman · Answer 9 · 24 января 2011

Используйте urlparse, чтобы получить большинство из перечисленного выше:

http://docs.python.org/library/urlparse.html

затем разделите «путь» вверх. Возможно, вам удастся разделить путь, используя os.path.split, но ваш пример 2 с: 8024 на конце требует ручной обработки. Ваши расширения файлов всегда три буквы? Или всегда буквы и цифры? Используйте регулярное выражение.

Как безопасно получить расширение файла с URL?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 9 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как безопасно получить расширение файла с URL?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 9 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов