Извлечение нескольких файлов XML из папки - PullRequest
1 голос
/ 07 ноября 2019

Я работаю с опубликованными ncbi данными ftp. Мне нужно разобрать xml

Я сохранил XML-файл в папке Приблизительно 1500 (250 ГБ) файлов хранятся в папке. Я читаю файл из папки, но в моемкод, когда я запускаю его, моя система зависает. как решить это

import sqlite3 
import os 
import lxml.etree as ET 


path = '/home/shayez/Desktop/Ex'

listfile = []
files = os.listdir(path)
for name in files:

listfile.append(name)


pmdata = []    

for name2 in listfile:
    full_file = os.path.abspath(os.path.join('Ex',name2))
    dom = ET.parse(full_file)
    pmdat = dom.findall('PubmedArticle')
    pmdata.append(pmdat)         


conn = sqlite3.connect('/home/shayez/Desktop/NewNCBI')
co = conn.cursor()
print ("Opened database successfully")

for d in pmdata:
  for c in d :
    PMID = c.find('MedlineCitation/PMID').text
    title = c.find('MedlineCitation/Article/ArticleTitle').text
    Date = 
c.find('MedlineCitation/Article/Journal/JournalIssue/PubDate/Year')
    Date2 = 
c.find('MedlineCitation/Article/Journal/JournalIssue/PubDate/MedlineDate')
    Abstract = c.find('MedlineCitation/Article/Abstract/AbstractText')
    if Abstract is None :
         pass
    elif Date is None:
        example =[(PMID,Date2.text,Abstract.text)]
        co.executemany('INSERT INTO pubdata(PMID,Date,Abstract)  VALUES (?,?,?)',example)
    else:
        example =[(PMID,Date.text,Abstract.text)]
        co.executemany('INSERT INTO pubdata(PMID,Date,Abstract)  VALUES (?,?,?)',example)

conn.commit()
print("Records Save Successfully")
conn.close()
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...