У меня есть экспортированный файл с более чем 200 000 кодов, которые я пытаюсь отфильтровать только по кодам. Сам файл становится более 1 миллиона строк из-за того, что каждый код содержит несколько строк несущественной информации.
Я написал скрипт для чтения файла, поиска кодов на основе префикса и записи в другой файл .csv:
import pandas as pd
df = pd.read_csv('export_file.csv')
output = []
for index, row in df.iterrows():
if ('PREFIX-01' in str(row['code'])):
code = str(row['code'])
output.append(code)
with open('output.csv','w') as file:
for line in output:
file.write(line)
file.write('\n')
Скрипт хорошо работает для меньшего числа кодов (около 50 тыс.), но это займет ДЛИННОЕ время, чтобы l oop пройти через все эти ряды. Python и Pandas относительно новы для меня, поэтому мне интересно, есть ли способ сделать скрипт более эффективным?
Я слышал, что grep
будет здесь полезно, но цель в конечном итоге состоит в том, чтобы записать это в веб-сервис, поэтому я бы не стал делать это через командную строку.