Я работаю с очень большим текстовым файлом (500 МБ +), и код, который я имею, выводится отлично, но я получаю много дубликатов.То, что я хочу сделать, это проверить выходной файл, чтобы увидеть, существует ли вывод, прежде чем он записывает в файл.Я уверен, что это только одна строка в операторе if, но я плохо знаю Python и не могу понять синтаксис.Любая помощь будет принята с благодарностью.
Вот код:
authorList = ['Shakes.','Scott']
with open('/Users/Adam/Desktop/Poetrylist.txt','w') as output_file:
with open('/Users/Adam/Desktop/2e.txt','r') as open_file:
the_whole_file = open_file.read()
for x in authorList:
start_position = 0
while True:
start_position = the_whole_file.find('<A>'+x+'</A>', start_position)
if start_position < 0:
break
end_position = the_whole_file.find('</W>', start_position)
output_file.write(the_whole_file[start_position:end_position+4])
output_file.write("\n")
start_position = end_position + 4