Я пытаюсь почистить сайт, скажем, Stackoverflow. Я написал код, который очищает текст, а также изображения и URL-адреса. Я хочу сохранить эти данные в базе данных sqllite.
Я уже установил соединение с базой данных .. Однако при сохранении содержимого в базе данных появляется ошибка.
вот мойкод scraper.py
from bs4 import BeautifulSoup, SoupStrainer
import requests
from urllib.request import urlopen
import re
import sqlite3
url = "http://stackoverflow.com/"
page = requests.get(url)
data = page.text
soup = BeautifulSoup(data, features='html.parser')
soup.prettify()
text_data = soup.find_all('p')
print(text_data) #This will return all Text data.
for link in soup.find_all('a'):
print(link.get('href')) #This will return all urls
html = urlopen(url)
bs = BeautifulSoup(html, features='html.parser')
images = bs.find_all('img', {'src':re.compile('.jpg')})
for image in images:
print(image['src']+'\n') #This will return all Image urls
conn = sqlite3.connect('scraped.sqlite3',check_same_thread=False)
curs = conn.cursor()
#curs.execute("INSERT INTO scraped(data,link,img_url) values('text_data','link.get('href')','image['src']")
conn.commit()
после ввода этой строки в программу
curs.execute("INSERT INTO scraped(data,link,img_url) values('text_data','link.get('href')','image['src']")
``` it throws an error like sqlite3.OperationalError: near "href": syntax error
I tried finding it but didnt understand it. Sorry if it is something very trivial