Ошибка сегментации тензорной доски AWS (ядро сброшено) - PullRequest
0 голосов
/ 26 июня 2019

Я пытаюсь использовать tenorboardX для отладки NN pytorch, который работает в экземпляре p2.xlarge AWS.

Я следовал этому руководству , чтобы открыть порт 6006.

Модель работает, а tenonboardX создает файл записи. Там я получаю следующее предупреждение. Я не уверен, насколько это актуально.

ПРЕДУПРЕЖДЕНИЕ: root: кортеж появляется в операторе, который не пересылает кортежи (Посетите узел /pytorch/torch/csrc/jit/passes/lower_tuples.cpp:117) кадр № 0: std :: function :: operator () () const + 0x11 (0x7fbe3dd04441 в /home/ubuntu/anaconda3/envs/pytorch_p36/lib/python3.6/site-packages/torch/lib/libc10.so) кадр № 1: c10 :: Ошибка :: Ошибка (c10 :: SourceLocation, std :: string const &) + 0x2a (0x7fbe3dd03d7a in /home/ubuntu/anaconda3/envs/pytorch_p36/lib/python3.6/site-packages/torch/lib/libc10.so) кадр № 2: + 0xaf61f5 (0x7fbe3cdc41f5 в /home/ubuntu/anaconda3/envs/pytorch_p36/lib/python3.6/site-packages/torch/lib/libtorch.so.1) кадр № 3: + 0xaf6464 (0x7fbe3cdc4464 в /home/ubuntu/anaconda3/envs/pytorch_p36/lib/python3.6/site-packages/torch/lib/libtorch.so.1) кадр № 4: torch :: jit :: LowerAllTuples (std :: shared_ptr &) + 0x13 (0x7fbe3cdc44a3 в /home/ubuntu/anaconda3/envs/pytorch_p36/lib/python3.6/site-packages/torch/lib/libtorch.so.1) кадр № 5: + 0x3f84b4 (0x7fbe7d2cb4b4 в /home/ubuntu/anaconda3/envs/pytorch_p36/lib/python3.6/site-packages/torch/lib/libtorch_python.so) кадр № 6: + 0x130cfc (0x7fbe7d003cfc в /home/ubuntu/anaconda3/envs/pytorch_p36/lib/python3.6/site-packages/torch/lib/libtorch_python.so) кадр № 40: __libc_start_main + 0xf0 (0x7fbe8d69c830 в /lib/x86_64-linux-gnu/libc.so.6)

ПРЕДУПРЕЖДЕНИЕ: корень: в опе появляется кортеж, который не пересылает кортежи (Посетите узел /pytorch/torch/csrc/jit/passes/lower_tuples.cpp:117) кадр № 0: std :: function :: operator () () const + 0x11 (0x7fbe3dd04441 в /home/ubuntu/anaconda3/envs/pytorch_p36/lib/python3.6/site-packages/torch/lib/libc10.so) кадр № 1: c10 :: Ошибка :: Ошибка (c10 :: SourceLocation, std :: string const &) + 0x2a (0x7fbe3dd03d7a in /home/ubuntu/anaconda3/envs/pytorch_p36/lib/python3.6/site-packages/torch/lib/libc10.so) кадр № 2: + 0xaf61f5 (0x7fbe3cdc41f5 в /home/ubuntu/anaconda3/envs/pytorch_p36/lib/python3.6/site-packages/torch/lib/libtorch.so.1) кадр № 3: + 0xaf6464 (0x7fbe3cdc4464 в /home/ubuntu/anaconda3/envs/pytorch_p36/lib/python3.6/site-packages/torch/lib/libtorch.so.1) кадр № 4: torch :: jit :: LowerAllTuples (std :: shared_ptr &) + 0x13 (0x7fbe3cdc44a3 в /home/ubuntu/anaconda3/envs/pytorch_p36/lib/python3.6/site-packages/torch/lib/libtorch.so.1) кадр № 5: + 0x3f84b4 (0x7fbe7d2cb4b4 в /home/ubuntu/anaconda3/envs/pytorch_p36/lib/python3.6/site-packages/torch/lib/libtorch_python.so) кадр № 6: + 0x130cfc (0x7fbe7d003cfc в /home/ubuntu/anaconda3/envs/pytorch_p36/lib/python3.6/site-packages/torch/lib/libtorch_python.so) кадр № 40: __libc_start_main + 0xf0 (0x7fbe8d69c830 в /lib/x86_64-linux-gnu/libc.so.6)

Проблема в том, что у меня нет доступа к пользовательскому интерфейсу браузера тензорной доски. Я предпринимаю следующие шаги:

$ cd PATH_TO_FOLDER_CONTAINING_runs
$ source activate pytorch_p36
$ tensorboard --logdir=runs

Где я получаю сообщение об ошибке:

Ошибка сегментации (ядро сброшено)

Когда я проверяю системный журнал var/log/syslog, я вижу следующее:

26 июня 09:06:40 ядро ​​ip-172-xx-xx-xxx: тензорная доска [515315.598917] [1446]: ошибка сегмента при 0 ip (null) sp 00007ffd64c5f178 ошибка 14 в python2.7 [55d8673d1000 + 1000]

Моих навыков поиска в Google было недостаточно. Как я могу получить доступ к тензорной доске через браузер, когда он работает в экземпляре ASW?

Пожалуйста, дайте мне знать, если что-то неясно или какая-то информация отсутствует.

1 Ответ

0 голосов
/ 27 июня 2019

Несмотря на то, что код должен запускаться в среде pytorch_p36, тензорная доска фактически должна работать в другой среде.

Последовательность команд в терминале должна быть:

$ cd PATH_TO_FOLDER_CONTAINING_runs
$ source activate tensorflow_p27
$ tensorboard --logdir=runs

Затем назначенный порт открывается.

...