Это фантастическое использование для Python! Формат файла .URL
имеет следующий синтаксис:
[InternetShortcut]
URL=http://www.example.com/
OtherStuff=irrelevant
Чтобы проанализировать ваши .URL
файлы, начните с ConfigParser
, который прочитает это и создаст раздел InternetShortcut
, из которого вы можете прочитать URL. Получив список URL-адресов, вы можете использовать urllib
или urllib2
для загрузки URL-адреса и использовать тупое регулярное выражение для получения заголовка страницы (или BeautifulSoup, как предлагает Алекс).
Если у вас есть это, у вас есть список URL-адресов и заголовков страниц ... этого недостаточно для полной цитаты MLA, но должно быть достаточно для начала, не так ли?
Примерно так (очень грубо, кодирование в окне SO):
from glob import glob
from urllib2 import urlopen
from ConfigParser import ConfigParser
from re import search
# I use RE here, you might consider BeautifulSoup because RE can be stupid
TITLE = r"<title>([^<]+)</title>"
result = []
for file in glob("*.url"):
config = ConfigParser.ConfigParser()
config.read(file)
url = config.get("InternetShortcut", "URL")
# Get the title
page = urlopen(url).read()
try: title = search(TITLE, page).groups()[0]
except: title = "Couldn't find title"
result.append((url, title))
for url, title in result:
print "'%s' <%s>" % (title, url)