Я пытаюсь вызвать программу на Java (Stanford Chinese Word Segmenter) изнутри python.Java-программе необходимо загрузить большой (100 МБ) файл словаря (список слов для облегчения сегментации), который занимает более 12 секунд.Мне было интересно, возможно ли ускорить процесс загрузки, и, что более важно, как избежать повторной загрузки, когда мне нужно вызывать скрипт python несколько раз?
Вот соответствующая часть кода:
op = subprocess.Popen(['java',
'-mx2g',
'-cp',
'seg.jar',
'edu.stanford.nlp.ie.crf.CRFClassifier',
'-sighanCorporaDict',
'data',
'-testFile',
filename,
'-inputEncoding',
'utf-8',
'-sighanPostProcessing',
'true',
'ctb',
'-loadClassifier',
**'./data/ctb.gz',**
'-serDictionary',
'./data/dict-chris6.ser.gz',
'0'],
stdout = subprocess.PIPE,
stdin = subprocess.PIPE,
stderr = subprocess.STDOUT,
)
В приведенном выше коде './data/ctb.gz' - это место, куда загружается файл списка больших слов.Я думаю, что это может быть связано с процессом, но я мало что знаю об этом.