Я работаю над проектом, в котором пытаюсь текстовые сайты HTML Mine.
Я создал таблицу базы данных с 3 столбцами и 55 строками. Одна строка для каждого файла HTML.
Первый столбец содержит расположение файла HTML в моей системе. Второй столбец содержит содержимое файла HTML со всеми тегами HTML и текстом. Третий столбец предназначен для очищенного текста без тегов.
Чтобы очистить файлы всех тегов, я импортировал второй столбец в Jupyter Lab и использовал BeautifulSoup.
После этого я попытался обновить третий столбец своей базы данных, но понял, что не могу сопоставить очищенный текст и соответствующий текст HTML в строках второго столбца.
Я знаю, чтоЯ не могу использовать простой оператор INSERT, чтобы вернуть данные в базу данных. Когда я пытаюсь это сделать, он просто добавляет строку в конце таблицы с очищенной строкой.
Я знаю, что для этого мне нужно использовать инструкцию UPDATE, и мне, вероятно, нужен идентификатор, чтобы я мог соответствоватьтекст и текст HTML.
Как я могу изменить свой код, чтобы это работало?
Пожалуйста, помогите.
from bs4 import BeautifulSoup as bs
import re
import pandas as pd
from collections.abc import Iterable
import pymssql
conn = pymssql.connect(
host='x',
port=x,
user='x',
password='x',
database='x'
)
cursor = conn.cursor()
cursor.execute('SELECT x FROM x')
text = cursor.fetchall()
conn.close()
raw = []
raw.append(text)
raw1 = str(raw)
soup = bs(raw1, 'html.parser')
autor = soup.get_text()
clear = []
s = autor.replace('\\n', '')
clear.append(s)
for line in clear:
line = line.split(',')
conn = pymssql.connect(
host='x',
port=x,
user='x',
password='x',
database='x'
)
for line in clear:
line = line.split(',')
cursor = conn.cursor()
cursor.execute('UPDATE ....')
conn.close()