Я уже давно занимаюсь этим вопросом и ищу помощи.Я работал с данными из EDGAR SEC, где мне удалось загрузить номера CIK, даты, названия компаний и путь ftp к каждому годовому отчету компании.В общем, у меня есть 7000 строк, которые я должен загрузить.
Я запускаю свой код на Python, чтобы загрузить эти текстовые файлы (прочитав путь ftp) и сохранив их локально на моем компьютере.Имена этих файлов равны номеру CIK, дате и названию компании, разделенным на «-».
Далее я написал следующее, чтобы перепроверить, что я скачал все 7000 текстовых файлов:
import os
import csv
tenk_path = "D:/10ks/1 download/"
arr = os.listdir(tenk_path)
csvfile = "data.csv"
with open(csvfile, "a", newline="") as fp:
wr = csv.writer(fp, dialect='excel')
wr.writerow(['cik', 'name', 'year', 'unique_key'])
for name in arr:
main_name = name.split("-")
unique_key = str(main_name[0])+str(main_name[-1])
csvRow = [main_name[0],
main_name[1],
main_name[-1],
unique_key]
with open(csvfile, "a", newline="") as fp:
wr = csv.writer(fp, dialect='excel')
wr.writerow(csvRow)
print(name)
Затем я объединяю (в превосходстве для простоты) CIK и дату(год), который должен быть уникальным для всех компаний.Затем я проверяю отсутствие пробелов с помощью = TRIM и преобразовываю текстовые строки в числа с помощью = VALUE.
Таким образом, я сопоставляю конкатенацию номера CIK и года для файлов, которые я ДОЛЖЕН загрузить, с конкатенацией тех, которые я загрузил (6,994).Поступая так, я получаю, что я нахожу совпадения для всех 7000 - что не имеет смысла в моей голове вообще?Я уже убедился, что никакие пути и т. Д. Для начала не являются дубликатами, поэтому этого не может быть.
Кто-нибудь может помочь?Данные можно найти здесь:
https://ufile.io/rhuv2