Поскольку вы в конечном итоге намереваетесь использовать pandas
, все, что вам нужно, это передать данные в ваш скрипт и отфильтровать нужные вам строки. Самый простой способ - использовать модуль requests
в потоковом режиме, а затем обрабатывать удаленные данные как поток файлов, т. Е .:
.
import requests
url = "https://www.ebi.ac.uk/ena/data/view/FO203355&display=text"
with requests.get(url, stream=True) as r: # open a streaming request
for line in r: # iterate over the stream line by line
if line[:2] == "FT": # check if a line begins with `FT`
print(line) # or do whatever you want with the line
Если вы просто хотите сохранить данные, вы можете переслать отфильтрованную строку в поток вывода файла:
import requests
url = "https://www.ebi.ac.uk/ena/data/view/FO203355&display=text"
with requests.get(url, stream=True) as r, open("output.dat", "w") as f:
for line in r: # iterate over the stream line by line
if line[:2] == "FT": # check if a line begins with `FT`
f.write(line) # write the line to output.dat
Возможно, вы захотите создать свой фрейм данных и вместо этого непосредственно проанализировать строку в нем, однако это зависит от того, как вы хотите проанализировать свои данные, так что это упражнение я оставлю вам.