разбиение файла на несколько файлов с помощью ключевого слова с использованием Python - PullRequest
0 голосов
/ 28 сентября 2018

У меня большой текстовый файл на python.Я хочу разделить его на 2, используя ключевое слово.Файл над ключевым словом должен быть скопирован в один файл, а остальная часть файла - в другой.Я хочу сохранить эти файлы с разными расширениями в одном каталоге.Пожалуйста, помогите мне с этим.

Кроме того, как конвертировать файл из одного формата в другой формат?Например, .txt в .xml или .cite в .xml?

Ответы [ 2 ]

0 голосов
/ 28 сентября 2018

Чтобы ответить на первую часть вашего вопроса, вы можете просто использовать функцию split после прочтения текста и записать их в свои новые файлы:

with open('oldfile.txt', 'r') as fh:
    text_split = fh.read().split(keyword)

with open('newfile' + extension1, 'w') as fh:
    fh.write(text_split[0])

with open('newfile' + extension2, 'w') as fh:
    # If you know that the keyword only appears once
    # you can changes this to fh.write(text_split[1])
    fh.write(keyword.join(text_split[1:]))

Вторая часть вашего вопроса оченьтруднее.Я не знаю, с каким форматом файлов вы работаете, но TXT-файлы - это просто текст без определенной структуры.XML-файлы не могут быть преобразованы из любого произвольного формата.Если вы работаете с файлами XML в формате .txt, вы можете просто изменить формат на XML, но если вы хотите преобразовать формат, такой как CSV, я предлагаю вам использовать библиотеку, например lxml .

Редактировать: если файл не помещается в память, вместо этого вы можете перебирать строки:

with open('oldfile.txt', 'r') as fh:
    fh_new = open('newfile' + extension1, 'w')
    keyword_found = False
    line = fh.readline()
    while line:
        if not keyword_found:
            text_split = line.split(keyword)
            fh_new.write(text_split[0])
            if len(text_split) > 1: 
                fh_new.close()
                keyword_found = True
                fh_new = open('newfile' + extension2, 'w')
                fh_new.write(text_split[1:])
        else:
            fh_new.write(line)

        line = fh.readline()
    fh_new.close()
0 голосов
/ 28 сентября 2018

о разбиении вашего файла, это должно сделать это (учитывая размер файла):

import mmap
regex=b'your keyword'
f=open('your_path_to_the_main_file','rb')
s = mmap.mmap(f.fileno(), 0, access=mmap.ACCESS_READ)
first_occurance_position=s.find(regex)
if(first_occurance_position==0)
 print('this is a mistake')
 f.close()
 quit()

buf_size=0xfff
first_part_file=open('your_path_to_the_first_part'+'.its_extension','wb')
second_part_file=open('your_path_to_the_second_part'+'.its_extension','wb')
i=0;
if(buf_size>len(regex)):
 buf_size=len(regex)
b=f.read(buf_size)
while(b):
 i=i+buf_size
 first_part_file.write(b)
 if(i==first_occurance_position):
  break
 if(first_occurance_position-i<buf_size):
  buf_size=first_occurance_position-i
 b=f.read(buf_size)

b=f.read(0xffff)
while(b):
 second_part_file.write(b)
 b=f.read(0xffff)

first_part_file.close()
second_part_file.close()
f.close()
...