Я пытаюсь построить мини-кластер, в котором у меня есть один мастер и (в настоящее время) 1 раб.
Когда я набираю команду
mpirun --mca bt1_tcp_if_exclude "p2p1,lo,virbr0,virbr0-nic" -n 5 -v -show-progress --display-map -hostfile my_hostfile.txt my_mpi_program -in infile
, который дает следующий вывод
Data for JOB [1392,1] offset 0
======================== JOB MAP ========================
Data for node: mschramm Num slots: 4 Max slots: 4 Num procs: 4
Process OMPI jobid: [1392,1] App: 0 Process rank: 0
Process OMPI jobid: [1392,1] App: 0 Process rank: 1
Process OMPI jobid: [1392,1] App: 0 Process rank: 2
Process OMPI jobid: [1392,1] App: 0 Process rank: 3
Data for node: client_1 Num slots: 4 Max slots: 4 Num procs: 1
Process OMPI jobid: [1392,1] App: 0 Process rank: 4
=============================================================
App launch reported: 2 (out of 2) daemons - 0 (out of 5) procs
App launch reported: 2 (out of 2) daemons - 4 (out of 5) procs
[mschramm][[1392,1],0][btl_tcp_endpoint.c:818:mca_btl_tcp_endpoint_complete_connect] connect() to 192.168.122.1 failed: Connection refused (111)
Это говорит о том, что соединение было отклонено из-за 192.168.122.1, но я заявил об исключении его из исходной команды (--mca bt1_tcp_if_exclude "p2p1, lo, virbr0, virbr0-nic")
Любая помощь будет принята с благодарностью.
Программа MPI либо остановится (как показано выше), либо зависнет. Это кажется случайным.
После того, как мне сказали, что это "l", а не "1" ... я получил следующую ошибку
App launch reported: 2 (out of 2) daemons - 4 (out of 6) procs [mschramm][[6062,1],0]
[btl_tcp_endpoint.c:818:mca_btl_tcp_endpoint_complete_connect]
[mschramm][[6062,1],1 [btl_tcp_endpoint.c:818:mca_btl_tcp_endpoint_complete_connect] connect() to 192.168.1.118 failed: No route to host (113) connect() to 192.168.1.118 failed: No route to host (113)
Выполнение следующих команд на мастер-узле
[mpi_user@mschramm ~]$ ifconfig em1
em1: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
inet 192.168.1.143 netmask 255.255.255.0 broadcast 192.168.1.255
inet6 fe80::8d16:c4ff:a398:26c1 prefixlen 64 scopeid 0x20<link>
ether f8:b1:56:cd:91:f1 txqueuelen 1000 (Ethernet)
RX packets 15649 bytes 2240360 (2.1 MiB)
RX errors 0 dropped 0 overruns 0 frame 0
TX packets 35427 bytes 34470024 (32.8 MiB)
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
device interrupt 20 memory 0xf7200000-f7220000
[mpi_user@mschramm ~]$ netstat -nr
Kernel IP routing table
Destination Gateway Genmask Flags MSS Window irtt Iface
0.0.0.0 10.27.15.254 0.0.0.0 UG 0 0 0 p2p1
0.0.0.0 192.168.1.1 0.0.0.0 UG 0 0 0 em1
10.27.12.0 0.0.0.0 255.255.252.0 U 0 0 0 p2p1
192.168.1.0 0.0.0.0 255.255.255.0 U 0 0 0 em1
192.168.122.0 0.0.0.0 255.255.255.0 U 0 0 0 virbr0
А на первом клиентском узле
[mpi_user@client_1 ~]$ ifconfig em1
em1: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
inet 192.168.1.118 netmask 255.255.255.0 broadcast 192.168.1.255
inet6 fe80::1b26:a452:58ac:1cdd prefixlen 64 scopeid 0x20<link>
inet6 fe80::8d16:c4ff:a398:26c1 prefixlen 64 scopeid 0x20<link>
ether f8:b1:56:cd:97:74 txqueuelen 1000 (Ethernet)
RX packets 36341 bytes 34562000 (32.9 MiB)
RX errors 0 dropped 0 overruns 0 frame 0
TX packets 14544 bytes 2126373 (2.0 MiB)
TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
device interrupt 20 memory 0xf7100000-f7120000
[mpi_user@client_1 ~]$ netstat -nr
Kernel IP routing table
Destination Gateway Genmask Flags MSS Window irtt Iface
0.0.0.0 192.168.1.1 0.0.0.0 UG 0 0 0 em1
192.168.1.0 0.0.0.0 255.255.255.0 U 0 0 0 em1
192.168.122.0 0.0.0.0 255.255.255.0 U 0 0 0 virbr0