Крепление CephFS. Не могу прочитать суперблок - PullRequest
0 голосов
/ 05 января 2019

Есть ли какие-либо указатели на эту проблему? Пробовал кучу вещей уже безрезультатно.

Эта команда завершается с ошибкой Can't read superblock

sudo mount -t ceph worker2:6789:/ /mnt/mycephfs -o name=admin,secret=AQAYjCpcAAAAABAAxs1mrh6nnx+0+1VUqW2p9A==


Еще немного информации, которая может быть полезна

uname -a Linux cephfs-test-admin-1 4.14.84-coreos #1 SMP Sat Dec 15 22:39:45 UTC 2018 x86_64 x86_64 x86_64 GNU/Linux

Состояние Ceph и состояние ceph osd вообще не показывают никаких проблем

dmesg | tail
[228343.304863] libceph: resolve 'worker2' (ret=0): 10.1.96.4:0
[228343.322279] libceph: mon0 10.1.96.4:6789 session established
[228343.323622] libceph: client107238 fsid 762e6263-a95c-40da-9813-9df4fef12f53


ceph -s
  cluster:
    id:     762e6263-a95c-40da-9813-9df4fef12f53
    health: HEALTH_WARN
            too few PGs per OSD (16 < min 30)
  services:
    mon: 3 daemons, quorum worker2,worker0,worker1
    mgr: worker1(active)
    mds: cephfs-1/1/1 up  {0=mds-ceph-mds-85b4fbb478-c6jzv=up:active}
    osd: 3 osds: 3 up, 3 in
  data:
    pools:   2 pools, 16 pgs
    objects: 21 objects, 2246 bytes
    usage:   342 MB used, 76417 MB / 76759 MB avail
    pgs:     16 active+clean

ceph osd status
+----+---------+-------+-------+--------+---------+--------+---------+-----------+
| id |   host  |  used | avail | wr ops | wr data | rd ops | rd data |   state   |
+----+---------+-------+-------+--------+---------+--------+---------+-----------+
| 0  | worker2 |  114M | 24.8G |    0   |     0   |    0   |     0   | exists,up |
| 1  | worker0 |  114M | 24.8G |    0   |     0   |    0   |     0   | exists,up |
| 2  | worker1 |  114M | 24.8G |    0   |     0   |    0   |     0   | exists,up |
+----+---------+-------+-------+--------+---------+--------+---------+-----------+

ceph -v
ceph version 12.2.3 (2dab17a455c09584f2a85e6b10888337d1ec8949) luminous (stable)

Некоторые выходные данные системного журнала:

Jan 04 21:24:04 worker2 kernel: libceph: resolve 'worker2' (ret=0): 10.1.96.4:0
Jan 04 21:24:04 worker2 kernel: libceph: mon0 10.1.96.4:6789 session established
Jan 04 21:24:04 worker2 kernel: libceph: client159594 fsid 762e6263-a95c-40da-9813-9df4fef12f53
Jan 04 21:24:10 worker2 systemd[1]: Started OpenSSH per-connection server daemon (58.242.83.28:36729).
Jan 04 21:24:11 worker2 sshd[12315]: pam_unix(sshd:auth): authentication failure; logname= uid=0 euid=0 tty=ssh ruser= rhost=58.242.83.28  us>
Jan 04 21:24:14 worker2 sshd[12315]: Failed password for root from 58.242.83.28 port 36729 ssh2
Jan 04 21:24:15 worker2 sshd[12315]: Failed password for root from 58.242.83.28 port 36729 ssh2
Jan 04 21:24:18 worker2 sshd[12315]: Failed password for root from 58.242.83.28 port 36729 ssh2
Jan 04 21:24:18 worker2 sshd[12315]: Received disconnect from 58.242.83.28 port 36729:11:  [preauth]
Jan 04 21:24:18 worker2 sshd[12315]: Disconnected from authenticating user root 58.242.83.28 port 36729 [preauth]
Jan 04 21:24:18 worker2 sshd[12315]: PAM 2 more authentication failures; logname= uid=0 euid=0 tty=ssh ruser= rhost=58.242.83.28  user=root
Jan 04 21:24:56 worker2 systemd[1]: Started OpenSSH per-connection server daemon (24.114.79.151:58123).
Jan 04 21:24:56 worker2 sshd[12501]: Accepted publickey for core from 24.114.79.151 port 58123 ssh2: RSA SHA256:t4t9yXeR2yC7s9c37mdS/F7koUs2x>
Jan 04 21:24:56 worker2 sshd[12501]: pam_unix(sshd:session): session opened for user core by (uid=0)
Jan 04 21:24:56 worker2 systemd[1]: Failed to set up mount unit: Invalid argument
Jan 04 21:24:56 worker2 systemd[1]: Failed to set up mount unit: Invalid argument
Jan 04 21:24:56 worker2 systemd[1]: Failed to set up mount unit: Invalid argument
Jan 04 21:24:56 worker2 systemd[1]: Failed to set up mount unit: Invalid argument
Jan 04 21:24:56 worker2 systemd[1]: Failed to set up mount unit: Invalid argument
Jan 04 21:24:56 worker2 systemd[1]: Failed to set up mount unit: Invalid argument
Jan 04 21:24:56 worker2 systemd[1]: Failed to set up mount unit: Invalid argument
Jan 04 21:24:56 worker2 systemd[1]: Failed to set up mount unit: Invalid argument
Jan 04 21:24:56 worker2 systemd[1]: Failed to set up mount unit: Invalid argument
Jan 04 21:24:56 worker2 systemd[1]: Failed to set up mount unit: Invalid argument
Jan 04 21:24:56 worker2 systemd[1]: Failed to set up mount unit: Invalid argument

1 Ответ

0 голосов
/ 12 января 2019

Так что после копания проблема была из-за проблем с секционированием XFS ...

Не знаю, как я сначала это пропустил.

Короче говоря: Попытка создать раздел с помощью xfs не удалась. т.е. mkfs.xfs /dev/vdb1 будет просто зависать. Операционная система по-прежнему будет правильно создавать и помечать разделы, но они будут повреждены - факт, который вы обнаружите только при попытке монтирования, получив ошибку Can't read superblock.

Итак, ceph делает это: 1. Запустите развертывание 2. Создайте разделы XFS mkfs.xfs ... 3. ОС создаст эти неисправные разделы 4. Так как вы все еще можете прочитать состояние экранных меню, все отчеты о состоянии и журналы не будут сообщать о проблемах (mkfs.xfs не сообщал об ошибках, он просто зависал) 5. Когда вы пытаетесь смонтировать cephFS или использовать хранилище блоков, все это бомбится из-за поврежденных разделов.

Основная причина: пока неизвестна. Но я подозреваю, что что-то не было сделано правильно на уровне дисков SSD при подготовке / подключении их от моего облачного провайдера. Теперь работает нормально

...