Я новичок в SQL и пытаюсь отучиться от того, что я знаю в Python. У меня есть скрипт, где я подключаюсь к odbc SSMS для работы с данными в Python:
import pyodbc
import pandas as pd
#odbc
conn = pyodbc.connect('Driver={SQL Server};'
'Server=PMZZ315\RION;'
'Database=Warehouse;'
'Trusted_Connection=yes;')
cursor = conn.cursor()
df = pd.read_sql_query("SELECT [LetId],[StreetAddressLine1],[CompanyName] FROM Dim.Let", conn)
df
df.head()
#print(df.columns)
# Select duplicate rows except first occurrence based on all columns
duplicateRowsDF = df[df.duplicated(['CompanyName','StreetAddressLine1'])]
#print("Duplicate Rows except first occurrence based on all columns are :")
print(duplicateRowsDF)
duplicateRowsDF.to_csv("duplicateRowsDFodbc.csv")
Какая функция в SQL может заменить функцию df.duplicated? Все, что я пытаюсь сделать, это обнаружить дублирующиеся записи, игнорируя первый экземпляр, если название компании и почтовый адрес повторяются
Представляет выходной набор данных:
LetId StreetAddressLine1 CompanyName
32 1451 West Brimson View Court Palmer
405 1808 North Lonion Ave Ozark
465 4223 Monty Hwy Alabama