Моя цель - очистить список URL-адресов, хранящихся в CSV-файле. Пример URL имеет следующую форму:
http://mashable.com/2013/01/07/amazon-instant-video-browser/
Теперь я получаю следующую ошибку, если пытаюсь проанализировать список URL-адресов для Beautifulsoup:
URLError: <urlopen error unknown url type: http>
Кто-нибудь знает, как решить эту проблему? Я думаю, что это может быть легко исправить, но я не могу решить это. Вот код, который я сейчас использую:
import csv
from urllib.request import urlopen
from bs4 import BeautifulSoup
contents = []
with open('url.csv','r') as csvf: # Open file in read mode
urls = csv.reader(csvf)
for url in urls:
contents.append(url) # Add each url to list contents
for url in contents: # Parse through each url in the list.
page = urlopen(url[0]).read()
soup = BeautifulSoup(page, "html.parser")
print(soup)