2015年12月29日火曜日

サーバ ドライブ交換2回目の2

バックアップがすんだので、
それぞれのHDDのシリアルを控える
# hdparm -i /dev/sda
 これを台数分控えておく。ターゲットのシリアルのHDDを抜く。
サーバの電源を落とす。

# shutdown -h now

次に、ターゲットのシリアルのHDDをぬく。

入れ替えて、

# parted /dev/sdh
GNU Parted 2.1
/dev/sdh を使用
GNU Parted へようこそ! コマンド一覧を見るには 'help' と入力してください。
(parted) mklabel gpt
(parted) quit
通知: 必要であれば /etc/fstab を更新するのを忘れないようにしてください。

# zpool replace ztank sdh
ちょっと時間がかかり続いて確認
# zpool status
  pool: ztank
 state: DEGRADED
status: One or more devices is currently being resilvered.  The pool will
        continue to function, possibly in a degraded state.
action: Wait for the resilver to complete.
  scan: resilver in progress since Tue Dec 29 04:11:25 2015
    22.2G scanned out of 11.4T at 167M/s, 19h44m to go
    3.51G resilvered, 0.19% done
config:

        NAME             STATE     READ WRITE CKSUM
        ztank            DEGRADED     0     0     0
          raidz1-0       DEGRADED     0     0     0
            sda          ONLINE       0     0     0
            sdb          ONLINE       0     0     0
            sdc          ONLINE       0     0     0
            sdd          ONLINE       0     0     0
            sdg          ONLINE       0     0     0
            replacing-5  UNAVAIL      0     0     0
              old        UNAVAIL      0     0     0
              sdh        ONLINE       0     0     0  (resilvering)
        spares
          sde            AVAIL

errors: No known data errors

resilveringが始まったので、しばらく放置する。おそらく4.5時間はかかるんじゃないかなあ?

2015年12月27日日曜日

サーバ ドライブ交換2回目の1

Currently unreadable (pending) sectors detected:
        /dev/sda [SAT] - 48 Time(s)
        160 unreadable sectors detected
        /dev/sdb [SAT] - 48 Time(s)
        64 unreadable sectors detected
        /dev/sdh [SAT] - 48 Time(s)
        2920 unreadable sectors detected

と3台もSMARTから、読めないセクタが出たぜと上がってきた。

で、本格的にヤバそうなsdhから交換していく。
RAID-Zで、確認するととりあえずデータは無事そう。

zpool status
  pool: ztank
 state: ONLINE
  scan: none requested
config:

        NAME        STATE     READ WRITE CKSUM
        ztank       ONLINE       0     0     0
          raidz1-0  ONLINE       0     0     0
            sda     ONLINE       0     0     0
            sdb     ONLINE       0     0     0
            sdc     ONLINE       0     0     0
            sdd     ONLINE       0     0     0
            sdg     ONLINE       0     0     0
            sdh     ONLINE       0     0     0
        spares
          sde       AVAIL

抜こうとする。
# zpool remove ztank /dev/sdh
cannot remove /dev/sdh: only inactive hot spares, cache, top-level, or log devices can be removed

怒られた。SMARTはエラーだしてるけど、まだ壊れてないので、CKSUMがついてない。
つまりRAID-Zは、まだ壊れてないと認識している。となると、物理的に交換した方がよさそうだ・・。

大事なファイルは、一旦別のNASへコピーしておく。RAIDの修復作業でとどめを刺すというのは結構ある。

ということで、とりあえず。バックアップしておく。