У меня есть файл сценария python (3.7.0), который принимает более 17 000 текстовых файлов, а затем обрабатывает каждый файл построчно, чтобы заполнить необходимые данные во фрейме данных Pandas.Таким образом, код выглядит следующим образом: Script1.py файл:
def filePrpcesserFunc(file):
data = open(file, 'r')
for line in data.readlines():
#Does some computing here to get var1, var2, var3
#var1, var2, var3 are all integers
return var1, var2, var3
if __name__ == '__main__':
import glob2
import pandas
files = glob2.glob("*.txt")
#There are more than 17,000 text files to be computed
X = pandas.DataFrame()
for file in files:
rvar1, rvar2, rvar3 = fileProcesserFunc(file)
X.loc[str(rvar1), str(rvar2)] = rvar3
Теперь вышеприведенный скрипт на python запускает более 17 000 файлов, чтобы сделать pandas dataframe X, который должен быть вычислен толькоодин раз, чтобы получить данные (и вычисления довольно дорогие) .Мне нужно использовать этот фрейм данных в другом файле сценария (скажем) Script2.py , чтобы создать модель машинного обучения и, таким образом, чтобы протестировать мою модель, мне потребуется снова и снова обращаться к X, то естьзапускать Script2.py снова и снова.Кто-нибудь может предложить что-нибудь?Я был бы очень благодарен вам.