Я пытаюсь запустить конвейер потока данных, который использует файлы python, которые интегрированы с файлом pickle ниже:
dataflow.py
from stopwords import StopWords
stopwords = StopWords()
...
data = (pipeline | 'read' >> ReadFromText (gs://some/inputData.txt)
| 'stopwords' >> beam.Map(lambda x:{'id':x['id'],'text': stopwords.validate(x['text'])}))
stopwords.py
class StopWords:
def __init__ (self):
module_dir = os.path.dirname(__file__)
self.words = pickle.load(open(os.path.join(module_dir, 'model/sw.p'), "rb"))
Как бы то ни было, я обнаружил ошибку:
IOError: [Errno 2] Нет такого файла или каталога:
«/usr/local/lib/python2.7/dist-packages/dataflow/model/sw.p'
Я пытаюсь отладить self.words
, и он работает гладко. однако, я столкнулся с проблемой, когда я запустил его в задании потока данных облака Google.
Кто-нибудь может помочь?