Remote File-System Failure Modes

Remote FS 除了 local disk / controller / metadata failures,還會遇到 network partition、server crash / shutdown、router / link failure、naming / authentication service unavailable。

Failure semantics

  • Terminate operations:立即回傳 error。Process 不會無限等,但可能造成 data loss 或 application crash。
  • Delay operations:block 等 server 恢復。短暫失聯可透明恢復;長時間失聯時 user 會覺得系統卡住。

DFS 常偏向 delay,因為短暫 network / server failure 很常見,直接 fail 可能破壞大量工作。

Stateful vs stateless recovery

  • Stateful server 保存 open files、locks、sessions、mounted clients;可提供較強 locking / consistency / security,但 crash 後要重建或 reclaim state。
  • Stateless server 不保存 correctness-critical open-file state;每個 request 帶足 file handle、offset、operation、credential。Crash recovery 簡單,但 security / locking / functionality 較弱。

課本的 NFS v3 stateless 屬於後者;NFS v4 引入更多 stateful mechanisms。