Обновление таблицы базы данных с помощью Python и SQL - PullRequest
0 голосов
/ 18 октября 2019

Я работаю над проектом, в котором пытаюсь текстовые сайты HTML Mine.

Я создал таблицу базы данных с 3 столбцами и 55 строками. Одна строка для каждого файла HTML.

Первый столбец содержит расположение файла HTML в моей системе. Второй столбец содержит содержимое файла HTML со всеми тегами HTML и текстом. Третий столбец предназначен для очищенного текста без тегов.

Чтобы очистить файлы всех тегов, я импортировал второй столбец в Jupyter Lab и использовал BeautifulSoup.

После этого я попытался обновить третий столбец своей базы данных, но понял, что не могу сопоставить очищенный текст и соответствующий текст HTML в строках второго столбца.

Я знаю, чтоЯ не могу использовать простой оператор INSERT, чтобы вернуть данные в базу данных. Когда я пытаюсь это сделать, он просто добавляет строку в конце таблицы с очищенной строкой.

Я знаю, что для этого мне нужно использовать инструкцию UPDATE, и мне, вероятно, нужен идентификатор, чтобы я мог соответствоватьтекст и текст HTML.

Как я могу изменить свой код, чтобы это работало?

Пожалуйста, помогите.


from bs4 import BeautifulSoup as bs
import re
import pandas as pd
from collections.abc import Iterable
import pymssql



conn = pymssql.connect(
    host='x',
    port=x,
    user='x',
    password='x',
    database='x'
)
cursor = conn.cursor() 
cursor.execute('SELECT x FROM x')

text = cursor.fetchall()

conn.close()



raw = []  
raw.append(text)
raw1 = str(raw)
soup = bs(raw1, 'html.parser')
autor = soup.get_text()

clear = []
s = autor.replace('\\n', '')
clear.append(s)

for line in clear:
    line = line.split(',')

conn = pymssql.connect(
    host='x',
    port=x,
    user='x',
    password='x',
    database='x'
)

for line in clear:
    line = line.split(',')


cursor = conn.cursor()

cursor.execute('UPDATE ....')
conn.close()

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...