Как загрузить большой xml файл набора данных в python? - PullRequest
0 голосов
/ 13 апреля 2020

Привет, я работаю над проектом по анализу данных с python, где у меня есть файл XML размером около 2,8 ГБ, который слишком велик для открытия. Я скачал EmEditor, который помог мне открыть файл. Проблема заключается в том, что когда я пытаюсь загрузить файл в python Google Colab Laboratory следующим образом:

import xml.etree.ElementTree as ET
tree = ET.parse('dataset.xml')  //dataset.xml is the name of my file 
root = tree.getroot()

Я получаю результат, что такого файла или каталога нет: 'dataset. xml' не существует. У меня есть файл набора данных. xml на рабочем столе, и его можно открыть с помощью EmEditor, что дает мне идею, что его можно редактировать и загружать через EmEditor, но я не знаю. Буду признателен за помощь в загрузке данных в python Google Colab.

1 Ответ

0 голосов
/ 13 апреля 2020

Google Colab работает на компьютере удаленно из Google и не может получить доступ к файлам на вашем рабочем столе.

Чтобы открыть файл в Python, сначала необходимо передать файл в экземпляр colab. Есть несколько способов сделать это, и вы можете найти их здесь: https://colab.research.google.com/notebooks/io.ipynb

Самый простой, вероятно, это:

from google.colab import files

uploaded = files.upload()

for fn in uploaded.keys():
  print('User uploaded file "{name}" with length {length} bytes'.format(
      name=fn, length=len(uploaded[fn])))

Хотя имейте в виду, что каждый Когда вы начнете новый сеанс Colab, вам нужно будет повторно загрузить файл. Это потому, что Google хотел бы использовать компьютер для кого-то другого, когда вы его не используете, и, таким образом, стирает все данные на компьютере.

...