TOPへ ID:050007
 
 ストレージに関するFAQ集(SCSI・RAID・SAN) 

参考)SAN用語集:SNIA-J

+SCSI
 
  ・SCSI規格一覧
  ・バス駆動方式
  ・コネクタ形状
  ・ターミネーター
  ・SSA、ESS

  ・
SAS(Serial Attached SCSI)とは?(20051229)

+ストレージ

  ・RAIDについて

  ・IBM DS4000シリーズにおけるフラッシュコピー
  ・IBM DS4000シリーズにおけるHDD・LUN構成の推奨値
  ・IBM DS4000/FAStT Storage Managerにおける設定値「Media Scan Settings」とは?

  ・
日立SANRISEディスク バックアップ/リストアの状態遷移
  ・ShadowImageペアステータスについて
  ・日立SANRISE操作のための主なコマンド
  ・日立SANRISE ShadowImage機能と連携したOracleデータベースのオンラインバックアップ運用


+SAN

  ・ゾーニングの構成と運用上の考慮点
  ・FCスイッチのカスケード接続
  ・LUNマスキング

  ・iSCSIとは?(20051227)
 



分類 FAQ
SCSI SCSI規格一覧
説明
Small Computer System Interface。アメリカ規格協会(ANSI)が規格した、様々なデバイスをChain Loop(ディジーチェーン:数珠繋ぎ)で接続するための汎用インターフェイス。現在まで様々な拡張が行われ、発展を遂げている。WORM(Write Once Read Many)デバイスもサポート。なお、バス駆動方式の一つであるシングルエンドディファレンシャルでは駆動電圧が違うので、変換装置をかませないと混同は出来ない。(LVDは除く)。

規格名
最大転送速度 バス幅 最大同期クロック ピン数 最大接続台数 最大接続長
シングルエンド ディファレンシャル
LVD HVD
パラレルバス
scsi-1
(1986年)
5MB/s 8bit 5MHz 25pin 8 6 6[1台でもシングルエンドのみ対応の装置が含まれる]/12[全てLVD対応装置で構成] 25
scsi-2
(1992年)
Fast-10 fast (narrow) scsi 10MB/s 8bit 10MHz 25/50pin 8 3 3[1台でもシングルエンドのみ対応の装置が含まれる]/12[全てLVD対応装置で構成] 25
Fast-10 fast wide scsi 20MB/s 16bit 10MHz 68pin 16 3 3[1台でもシングルエンドのみ対応の装置が含まれる]/12[全てLVD対応装置で構成] 25
scsi-3  Fast-20 ultra (narow) scsi
(double speed scsi)
20MB/s 8bit 20MHz 50pin 8 1.5  1.5[1台でもシングルエンドのみ対応の装置が含まれる]/12[全てLVD対応装置で構成] 25
4 3 - -
Fast-40 ultra wide scsi 40MB/s 16bit 20MHz 68pin 16 -  -  25 
8 1.5 - -
4 3 - -
ultra2 scsi 80MB/s 16bit 40MHz  68pin 16 未定義 12/25[ホストアダプタに接続する機器が1台のみ] 未定義
Fast-80 ultra160
(ultra3 scsi)
160MB/s 16bit 40MHz(ダブルエッジで80)  68pin 16 未定義 12/25[ホストアダプタに接続する機器が1台のみ] 未定義
Fast-160 ultra320
(ultra4 scsi)
320MB/s 16bit    68pin 16 - 12/25[ホストアダプタに接続する機器が1台のみ] -
シリアルバス
Serial Attached SCSI                       

・各下位互換あり。

・wide SCSIバスにnarrow SCSI機器を混在して接続する場合は、wide SCSI機器をインターフェース側に、narrrow SCSI機器をターミネーター側に接続する。
 なお、中間の位置にnarow SCSI機器を配置することはできない。「wide - narrow - wide」でなく、「wide - wide - narow」の形で接続する。

・narrow SCSIバスにwide SCSI機器を混在して接続する場合は、narrow SCSI機器をインターフェース側に、wide SCSI機器をターミネーター側に接続する。
 なお、中間の位置にwide SCSI機器を配置することはできない。「narrow - wide - narrow」でなく、「narrow - narrow - wide」の形で接続する。


・最大接続台数は、接続長に制限を受ける。実質Ultra SCSI規格の場合は最大数4台を目処と考えたほうがいい。

・LVD規格の製品は、LVD対応のSCSIインターフェースに接続し、接続されるデバイスもLVDに統一した場合のみ正しく動作する。シングルエンド規格の機器との
 混在環境ではLVDモードでの動作ではなくSingle Ended SCSIモードとなる。もし、混在を行なう時は、LVDエクステンダを利用を推奨する。

 LVD SCSI機器を使用する場合は、ターミネーターもLVD対応製品を利用する。



分類 FAQ
SCSI バス駆動方式
説明
シングルエンド(single-ended)
古くから存在する、1本の信号線でデータを転送する方式。基準電圧より高い場合を「1」、低い場合を「0」として2進でデータ列を表現する。構造が単純でコストが低いが、アースを経由することからノイズが乗りやすく信号が減衰しやすい。そのためケーブル長を長くできないという欠点がある。

ディファレンシャル(differential)
「+」と「-」の2本の信号線でデータを転送する方式。+信号線の電圧が-信号線の電圧より高い場合を「1」、低い場合を「0」として2進でデータ列を表現する。機構が複雑で高価だが、アースを経由しないことからノイズの影響を受けにくく信号が減衰しにくい。従来からある5V駆動の「HVD」と、従来よりも低い電圧(3.3V)で駆動する「LVD」の2種類が存在する。両者に電気的な互換性はない。

ディファレンシャル方式 駆動電圧 消費電力 シングルエンド機器との混在
HVD(High Voltage Differential) 5V 不可
LVD(Low Voltage Differencial) 3.3V 可(混在時はシングルエンドとして動作)


分類 FAQ
SCSI コネクタ形状
説明
外付用 ---
標準ハーフピッチ 50ピン
narrow機器の接続に使用する正式規格のコネクタ。25本のピンが2列に並んだ形式。SCSI機器側:メス  ケーブル側:オス

標準ハーフピッチ 68ピン
wide機器の接続に使用する正式規格のコネクタ。34本のピンが2列に並んだ形式。SCSI機器側:メス  ケーブル側:オス

アンフェノール・フルピッチ 50ピン
過去製品で実装されていた大型の非正式規格コネクタ。SCSI機器側:メス  ケーブル側:オス

アンフェノール・ハーフピッチ 50ピン
NEC PC-9800シリーズで採用された非正式規格の旧コネクタ。SCSI機器側:メス  ケーブル側:オス

ミニチュア68ピン (VHDCI)
Very High Density Cable Interconect。限られたスペースに配置するために考案された超小型68ピンコネクタ。3.5mm×31mmでTypeUのPCカードにもコネクタを配置できる。

D-Sub 25ピン
以前のMacintoshで採用されていた非正式規格のコネクタ。データ幅8bit ピン数25ピン。

内蔵用 ---
内部50ピン (Aケーブル)(フラットケーブル/ラウンドケーブル)
narrow機器の接続に使用。ケーブルの両端だけでなく中間にもコネクタがついているため、2台以上のSCSIデバイスを1本のケーブルで接続できる。
SCSI機器側:メス  ケーブル側:オス

内部68ピン (Pケーブル)(フラットケーブル/ラウンドケーブル)
wide機器の接続に使用。ケーブルの両端だけでなく中間にもコネクタがついているため、2台以上のSCSIデバイスを1本のケーブルで接続できる。
SCSI機器側:メス  ケーブル側:オス


SCA、SCA-2
Single Connector Attachement。SCSIの68ピン信号線と、電源ライン、デバイスコントロールをひとつにまとめた80ピンコネクタ。ホットスワップに対応しているので、ディスクアレイ装置にハードディスクを直接取り付ける際に使用される。またSCSI IDを決める信号線もコネクタに含まれているので、デバイス外部からIDの変更が可能。


分類 FAQ
SCSI ターミネーター
説明
周辺機器を数珠繋ぎに接続したときに、配線の終端に取り付ける抵抗器のこと。数珠繋ぎに接続するデータ転送系で発生しやすい信号源インピーダンスと負荷インピーダンスが複素共役の関係になるよう調整する(インピーダンスマッチング)ことで、終端での信号の反射を防ぎ、信号の乱れを防ぐ。

ただし、最近のSCSI周辺機器はターミネータを内蔵したものが多く、スイッチでターミネータを有効にしたり、機器が自分が終端かどうかを自動的に判別してターミネータを有効にする機能を持っている場合がある。

パッシブターミネーター

単純に抵抗を取り付けて分圧する形式。安価だが信頼性は低い。

アクティブターミネーター
レギュレータとシリース抵抗を組み合わせ形式。信頼性が高いが価格は高い。

passiveターミネータでは 220, 330オームの抵抗でそれぞれ pull up, pull downされているが、activeターミネータは 2.85Vの定電圧回路と 110オームの抵抗を組み合わせた回路で pull up, pull downを行っているため、ケーブル固有のインピーダンスに近く、耐ノイズ特性も向上する。転送速度を上げる程ターミネータは重要になってくる。


分類 FAQ
SCSI SSA、ESS
説明
SSA
Serial Strage Archtecture。IBM社が中心となって開発した、MPUや内部バスの処理速度の高速化に対応したシリアル転送方式採用のSCSI規格の一つ。SCSI-3規格に含まれており、転送速度は最大160Mbps。1秒間に最大3,000回の入出力が実現できる。接続時の機器間の距離は最大25m、最大接続台数は96台で、ループ状の接続が可能になっている。ケーブルには基本的にシールド付より対線(STP)を使うが、光ファイバーケーブルを用いることで接続距離を最大2.5kmまで延長することが可能。ただしFiber Channelの普及が進んでいることもあり、普及率は高いとは言えず、対応している機器の数も少ない。

ESS
Shark Enterprise Storage Server。IBM社が開発したSAN対応ストレージ・サーバーで、必要に応じて予備のディスク容量を増強できる「スタンバイ・キャパシティー・オンデマンド機能」や、新規出荷時だけでなく出荷後にも可能な「スタンバイCoD機能の付加」等の柔軟な記憶容量拡張、そしてアプリケーションを停止することなくボリューム単位・データセット単位でデータを高速複製することが可能な「FlashCopy」、遠隔地のストレージにネットワークを介してバックアップを可能にする「PPRC(対等遠隔コピー)」等の拡張コピー機能にも対応する。また、コントローラーやバスなど全てにわたり冗長化がなされているため、耐障害性が高いのも特徴である。なおESSは、IBMの全サーバー用OSに加え、Windows (R)、Linux、Solaris、HP-UX等の主要なOSを全てサポートするSAN対応のオープン・ストレージ製品であり、ネットワークを介したWebベースでの管理環境とあわせて、設置環境や消費電力、運用管理費の削減などシステム全体のTCO削減に不可欠な仕組みとして急成長している。


分類 FAQ
SCSI SAS(Serial Attached SCSI)とは?(20051229)
説明
歴史と実績のあるSCSIコマンドをシリアルインターフェースに載せたもの。SerialATAのHDDを混在利用でき、複数のレーンをまとめた高速化や「エクスバンダー」を使った大規模ストレージシステムの構築ができる。

パラレル(並列な)転送技術は今、シリアル(直列な)技術に道を譲ろうとしている。すでにおなじみのSerialATA(SATA)、今回取り上げるSerial Attached SCSI(SAS)、大規模な企業システムで使われているFibre Channel(FC)がその例である。これらは急速に次世代コンピューターデータ転送の主役になろうとしている。
Adaptecが2005年11月に発表したSAS製品(SANbloc 5000f RAID Subsystem、Storage Enclosure 335SAS、Serial Attached SCSI 48300、Serial Attached SCSI RAID 4805SAS、Serial Attached SCSI RAID 4800SAS)は、シリアルデータ転送の中で最も新しいもので、3ギガビット/秒(300MB/秒)の転送速度から始まろうとしている。SASにはデータ転送幅のオプションもたくさんある。ナローパイプ、ワイドパイプ、ファットパイプである。

●SASのポートとレーン
SASでは複数の伝送路(レーン、Phy=物理層)をまとめて高速な転送が行える。1レーンのものを「ナローパイプ」、12レーンのものを「ファットパイプ」などと呼ぶこともある。


ポート レーン --- ナローリンク 3ギガビット/秒 --- レーン ポート

ポート レーン -- 4xワイドリンク 12ギガビット/秒 -- レーン ポート
レーン ----------------------------- レーン
レーン ----------------------------- レーン
レーン ----------------------------- レーン

ナローパイプでは、SASのレーン(Phy、物理層)を1つ使い、転送速度は3ギガビット/秒である。レーンを4つまたは8つ使うものをワイドパイプと呼び、それぞれの転送速度は、12ギガビット/秒、24ギガビット/秒になる。12レーン使うものをファットパイプと呼ぶ。SASのドライバーは自動的に接続レイヤーを構成し、コネクションの幅を十分に活用する。SASのシステムは、複数階層から成る以下図のようなトポロジーを描き、データがアップストリームとダウンストリームで別個に流れていてもかまわない。

●SASの多層トポロジーの例
SASの多層(マルチレベル)トポロジーの例。1つのSASシステム全体のことを「SASファブリック(配線)」とも呼ぶ。1つのSASファブリックに「ファンアウトエクスバンダー」は1つしか置けない。SATAはSerialATAの略。


SAS HDD SATA HDD SATA HDD
| | |
イニシエータ エッジ
エクスパンダー
| |
|
エッジ
エクスパンダー
ファンアウト
エクスパンダー
エッジ
エクスパンダー
SAS HDD
4xワイドリンクでの
高速化も可能
×
エッジ
エクスパンダー
イニシエーター エッジ
エクスパンダー
SAS HDD
| 経路の
多重化も可能
SAS HDD SAS HDD

SASの多くの機能は、新世代のSCSI拡張装置「SASエクスバンダー」によってもたらされる。SASエクスバンダーを用いることで、SASの基本的な構造とコスト面、ソフトウエア面でのアドバンテージを保ったまま、段階的な拡張が可能になる。


1.エクスバンダーで拡張し1万のデバイスを利用可能

SASのポートは、物理的にはSASホストコントローラーの一部で、SASまたはSATAドライブに直接接続されているかもしれない。その状態だと、利用できるドライブの数はSASホストコントローラーが持つポートの数に制限される。SASの規格ではデバイス(ドライブ)の数は約1万6000までOKで、そこまでの拡張を行うのがSASエクスバンダーである。エクスバンダーは、コンピューターの筐体内または筐体の近くで、より多くのコネクションやより大きな帯域噂が必要な場合に使う。SASエクスバンダーにはエッジエクスバンダー、エッジ・エクスバンダー・セット、ファンアウトエクスバンダーがある。ファンアウトエクスバンダーには、128個の直接的な接続が可能で、その対象は、エッジエクスバンダー(アップストリーム、ダウンストリームのどちら側でもよい)、イニシエーター(コンピューター、ホスト)、デバイスなどである。1つのトポロジーに、ファンアウトエクスバンダーは1つでなければならない。エッジエクスバンダーは、自分に直接接続されたデバイスのみを知っている。ファンアウトエクスバンダーには128個の物理的なデバイスを接続できる。ファンアウトエクスバンダーはSASトポロジーの中のすべてのデバイスについて知っていて、中央で配線リソースのルーティングを行う。ファンアウトエクスバンダーが1つでなければいけないというのはSASの制限事項だが、これによって、冗長性のループバックが生じないようにしていることを理解して欲しい。

イニシエーター、言い換えればHBA(Host Bus Adapter)は、PCをSASファブリックに接続するためのポイントとなる。エッジエクスバンダーに接続してもいいし、ファンアウトエクスバンダーに接続してもいい。現在あるイ二シエ−ターは、4レーンまたは8レーンのもので、1個または2個の4xSASポートを持つ。デバイス、と呼んでいるものは一般的には記憶装置で、現在の具体的な例はディスクドライブとテープドライブである。しかし、SASは勃興しつつあるテクノロジーであり、もっと別の種類のデバイスが登場することもありえる。たとえば、非常に高速なプリンターなどである。最後に以下図を見てほしい。

●SASの階層図
SASの中核はSSP(SAS Serial Protocol)、STP(SATA Tunneling Protocol)、SMP(SAS Management Protocol)である。SASデバイスは複数のSASポートを持ち、SASポートは複数のPhy(物理層)を持つ。


ファームウェア SCSI
アプリケーション層
ATAアプリケーション層 管理アプリケーション層 コマンド



SSP
トランスポート層(ST)
STP
トランスポート層(TT)
SMP
トランスポート層(MT)
コマンドの伝達
SASポート層(PL) <- - -> リンクへの接続
|
ハードウェア
デジタルロジック
SSPリンク層(SSP) | STPリンク層(STP) SMPリンク層(SMP) <- - -> リンク確立と接続の保持、
リンク上でのフレーム転送



SASリンク層(SL) <- - -> エンコーディングとビットオーダリング

SAS物理層(SP) <- - -> 物理層:信号のやり取りとコネクター
高速アナログ SASポート
SASデバイス


SASのPhyは、SASチップを外界のデータ信号線に接続する回路のことである。SASチップの中にあるPhyは、
SSP(SASS Serial Protocol)SMP(SAS Management Protocol)STP(SATA Tunneling Protocol)の機能を包含することになる。SASファブリックは最大1万6256個のPhyまたはコネクションを扱える。SAS Phyは送信と受信の信号線のペアで、これが1つのシグナルコネクションを形成する。SSPは棲準的なSCSIコマンドをSASファブリックの中で端から端へ運ぶ役割を果たす。SMPはSASエクスバンダー(エッジ、ファンアウト)を管理するためのプロトコルである。SMPはPhyの制御をし、エクスバンダーのルーティング情報を構成し、トポロジー構築、個々のSAS接続のリンクネゴシエーションを行う。STPは物理的にはSATAドライブが、ソフトウエア的にはATAプロトコルがSASドメインで動くことを可能にするものである。SAS ASIC Phyの中にあるSTP回路はSATAデバイスのためにSASアドレスを生成する。それによって、SASファブリックのトポロジーの中にSATAデバイスを位置づけられる。
 


分類 FAQ
ストレージ RAIDについて
説明
Redundant Array of Inexpensive Disk、Redundant Array of Independent Disk。複数のディスクを用いることにより、ディスク故障によるデータ損失を防ぎ、合わせて処理性能を向上するためのアレイ技術。ディスクへのデータ配置や、データの冗長化(多重化)方法により、「データ・ストライピング(RAID 0)、データ・ミラーリング・アレイ(RAID 1)、パラレル・アクセス・アレイ(RAID 2、RAID 3)、インディペンデント・アクセス・アレイ(RAID 4、RAID 5)、二重化分散パリティ(RAID6)、ミラーリングのストライピングもしくはストライピングのミラーリング(RAID10、RAID0+1)」の6つのレベルに分類定義される(バークレイ論文)。RAIDを実現するにはOSなどに用意されたソフトウェアによるソフトウェアRAIDと、RAID専用ハードウェアを使用するハードウェアRAIDの2つに大別される。本格的なサーバシステムでは、サーバのプロセッサに余分な負荷のかからないハードウェアRAIDコントローラを用いるのが一般的である。


●データ・ストライピング

RAID 0
「ストライピング」とも呼ばれ、2台以上のハードディスクに対してデータを分割して同時に読み書きすることにより、データ転送の高速化を実現する技術。複数のハードディスクを単一の大容量ドライブとして利用可能になるのも、メリットとして挙げられる。 半面、冗長性はまったくないうえ、複数のハードディスクに分割してデータが記録されることから、1台の故障ですべてのデータが失われることになる。つまり、ハードディスク1台の運用よりも、RAID 0の方が信頼性という点ではむしろ劣ることになる。
参考)ストライプボリューム

データ領域
1 2 3 4 5 6
ディスクA
5
3
1
ディスクB
6
4
2


●データ・ミラーリング・アレイ


RAID 1
「ミラーリング」とも呼ばれ、2台以上のハードディスクに対しまったく同じデータを書き込むことで、信頼性を向上させる技術。 1台のハードディスクが故障しても、残りのハードディスクが同一データを保存しているため、データは完全に保証される。また、失ったデータの再構築の時間が不要なため、ディスク障害時もデータの供給が継続できる(最も早い対応が可能)。 半面、2台以上のハードディスクが必要なのにも関わらず、その1台分の容量しか利用できないという容量効率の悪さがデメリットとなる。


●パラレル・アクセス・アレイ

RAID3
データ・レコードを、順番で、それぞれのデータ・ディスクに並行的に書き込んでいく。一方、パリティを、パリティ専用のディスクに書き込む。RAID3は、アレイ上のドライブ保護のためにパリティ用のドライブを1つ追加するだけで済むため、RAID1よりコスト的に安く出来る。

 ・
パラレルアクセス
  複数のR/W操作毎にすべての装置が並行して稼動する(ただし、1つの入出力操作は、一度に一つだけ)

 ・
パリティ+ストライピング
  読めなくなったデータを回復する機能を提供する。データも分割し、パリティも分けて保存することにより、装置が一つだけ壊れたのであれば、完全にデータの復元が
  できる機能を提供する。データ・ストライプ上のレコードが更新されれば、パリティも更新される。

 ・
高いデータ転送率
  ストライピングにより、高いデータ転送率が実現できる。レコードやブロックの読み書きよりにおいてディスク・アレイ内の装置毎に並行して読み書きできる。

 ・
低いI/O率
  並行処理アレイに対して、I/O要求は一度に一つしか出せない。よってトランザクション処理やマルチタスク処理に対してはきわめて低い処理能力しか示せない。

 ・
データ可用性
  パリティのための専用のボリュームをデータ・ボリュームと分離している。1ビットのエラーならデータは回復可能である。

 ・
専用パリティ・ボリューム
  これにより、ストライプされた複数ボリュームにまたがったデータの保護を行う。ただし、このパリティ・ボリュームへの書き込み競合が起こってしまい、足枷になる可能性
  があるのが弱点である。全てのI/O要求が、たった1つのボリュームへのアクセスを待たなければならない。

データ領域
1 2 3 4 5 ・・・
データ
ディスクA
1
4
7
データ
ディスクB
2
5
8
データ
ディスクC
3
6
9
パリティ
ディスク
パリティ
パリティ
パリティ
・パリティは専用パリティ・ボリュームに書き込まれる。ただし、このパリティ・ボリュームへの書き込み競合が発生し、足枷になる可能性がある。


●インディペンデント・アクセス・アレイ

RAID 5
「分散データ・ガーディング」とも呼ばれ、ハードディスクの故障時に記録データを修復するための「パリティ」と呼ばれる冗長コードを、全ハードディスクに分散して保存する技術。 RAID 5では、データをハードディスクに記録する際、RAID 0と同じ原理で、複数のハードディスクにデータを分散して書き込む。それと同時に、パリティも計算・生成する。 パリティ用ハードディスクは特に決まっておらず、全ハードディスクに分散して書き込まれる。これにより、パリティ専用ハードディスクのみに負荷(アクセス)が集中し、性能が低下することを防いでいる。 また、どれか1台のハードディスクが故障しても、それ以外のハードディスクのデータとパリティ情報から、元の完全なデータを修復できる。 ただし、修復可能なのは1台のディスクが故障したときまで、同時に2台以上が壊れると修復できない。 パリティの保存に必要なのは、全ハードディスク台数に関係なくハードディスク1台分の容量である。従ってハードディスク台数が多いほど容量の利用効率も向上することになる。 RAID 1と比較した場合、この容量効率の高さがRAID 5のメリットとなる。 またRAID 5の性能については、ハードディスクからの読み出し時には、複数のディスクから同時並行読み出しが可能なので高速である。 ただし、パリティを生成するオーバーヘッドから、書き込み性能は決して高くはない。

 ・
独立したアクセス
  それぞれの装置の読み書きヘッドを、他の装置から独立して動かすことが可能である。その結果、一度に一つ以上のI/O要求をあげることが可能である。

 ・
レコード・ストライピング
  データは、パリティ・データも含んで、指定した装置全てにまたがって配置される。

 ・
分散パリティ
  パリティを置くドライブ発生する競合を、パリティを分散化させることにより最小化できる。

 ・
高いデータ可用性
  アレイを使うことにより、パリティ情報を利用して一つのディスク装置上のデータの破壊なら再作成することができる。

 ・
高いI/O率
  データ・ストライピングと分散配置されたパリティにより、読み書きヘッドがそれぞれ独立して稼動することが出来る。扱われるデータ・ブロックが小さいほど、RAUD3に
  比べて優れた性能を発揮する。

 ・
高いデータ転送率
  独立したアクセス、ストライピング、分散配置したパリティにより、高いデータ転送帯域を確保できる。

 ・
書き込みペナルティ 
  データの書き込みにはパリティ生成によるオーバーヘッドがかかる。RAID5で書き込むときには、データとパリティの両方を更新しなければならない。RAID5で書き込む
  ときには、データとパリティの両方を更新しなければならない。ホスト上のアプリケーションからデータが変更されたときには、ストレージ・サブシステムは、パリティを再計算
  して更新することになる。ストレージ。サブシステムが新しいパリティを計算するには、四つのI/O操作をこなす必要がある

    ・二回の読み操作(新しいパリティを計算するために、旧データと旧パリティを読む)
    ・二回の書き操作(新しいデータパリティ)

データ領域
1 2 3 4 5 ・・・
ディスクA
1
3
パリティ
7
ディスクB
2
パリティ
5
8
ディスクC
パリティ
4
6
パリティ
・パリティは1台ずつずらして分散化される
・1台故障したら、正常なディスクのパリティを用いて計算を行い、元のデータを復元する



●二重化分散パリティ


RAID6

バークレイのRAIDレベルにはもともと存在しない。RAID5の仕様を追加したもので、もう一つ別の、2番目のパリティを追加したものである。

下図では、5つ分のディスク。スペースをデータのために使い、二つ分をパリティのために使っている。データとパリティは交互にアレイ内に挟み込んでいく。二つの、それぞれ異なるアルゴニズムによる、それぞれに独立したパリティを使うことにより、同時に二つのディスクに障害が発生した場合でも、データの可用性を維持できる。しかし、それだけ書き込みペナルティがRAID5より大きく、特に書き込みのパフォーマンスはRAID6では低い。

データ領域
1 2 3 4 5 ・・・
ディスクA
1
パリティ
11
16
ディスクB
2
6
パリティ
17
ディスクC
3
7
12
パリティ
ディスクD
パリティ
8
13
18
ディスクE
4
パリティ
14
19
ディスクF
5
9
パリティ
20
ディスクG
パリティ
10
15
パリティ


●ミラーリングのストライピング

RAID 10
ミラーボリューム(RAID 1)をストライプ化(RAID 0)したもの。

RAID 10もRAID 0+1も、耐障害性とパフォーマンスを兼ね備えた、RAID 0とRAID 1の複合技術であるが、RAID 10の場合は、同じミラーリンググループのハードディスクが両方とも故障しない限り、運用が続けられるのに対し、RAID 0+1は、別グループのドライブが立て続けに2台故障すると即停止してしまうため、耐障害性の面ではRAID 10のほうが優れていると言える。


●ストライピングのミラーリング

RAID 0+1
RAID 0+1、RAID 01。RAID 0とRAID 1を組み合わせた技術。 最低4台のハードディスクで構築し、ストライプボリューム(RAID 0)を構築したセットをRAID 1によりミラー化したもの。 RAID 0でデータ転送の高速化を実現し、また複数のハードディスクを単一ドライブとして活用できるうえ、RAID 1により冗長性も確保できるというメリットがある。 しかしRAID 0+1の場合も、RAID 1と同様、ハードディスクの利用効率は半分以下に下がることになる。

 


分類 FAQ
ストレージ IBM DS4000シリーズにおけるフラッシュコピー
説明
参考)SANRISE MRCF
参考)IBM SANディスク DS4000シリーズの導入と構築 - FlashCopyの使用

フラッシュコピーでは、ボリュームのインスタント・コピーを作成する。インスタント・コピーは、
T0コピー(time zero copy)とも呼ばれ、コピー操作を開始するための中断時間は最小限に抑えられる。ソース・ボリュームとターゲット・ボリュームは、どちらもコピー・プロセスが完了する前にアクセス可能になる。

1.IBM DS4000シリーズにおけるフラッシュ・コピー

 (1)バックアップ開始時刻(例えば0:00とする)を迎えた時点で、フラッシュコピーを開始する。
  
コピー元データ(物理ディスク上のデータ)


 (2)DS4000のフラッシュコピーでは、実際のコピー操作は実施せず、仮想的に作成したディスクにデータを取得した
こととする。実際にコピーしていないため、一瞬で
   フラッシュコピー処理は終了する。
   (物理的に別の領域にコピーするわけではないので、当フラッシュコピーには実像がなく、リカバリーに使用することはできない)
 
 
コピー元データ(物理ディスク上のデータ)
実際のコピー操作は行わない
仮想ディスク


 (3)フラッシュコピー後に発生した、コピー元データの変更点については、トラック単位で、物理ディスク上の「レポジトリー」という領域に蓄積される。
 
コピー元データ(物理ディスク上のデータ) ユーザによる更新
仮想ディスク
レポジトリ(フラッシュコピー後に発生した、コピー元データ変更点を蓄積保管)


 (4)データのバックアップを取得する場合は、フラッシュコピー実施時の0:00時点データがとられたことになっている「仮想ディスク」(
「コピー元データの現在の状態」から、
   
「レポジトリに蓄積されたデータ変更点」を差し引いたもの)より取得する。
 
コピー元データ(物理ディスク上のデータ) +ユーザによる更新
 
仮想ディスク  - バックアップ →   テープや、別の物理ディスクなど 
レポジトリ(フラッシュコピー後に発生した、コピー元データ変更点を保管)  


 (5)別のメディアにデータをバックアップしたら、フラッシュコピーは必ず即座に破棄する。


2.IBM DS6000/DS8000/ESSにおけるフラッシュ・コピー

 DS4000シリーズとは異なり、上記1(2)においては、仮想ディスクでなく、実際の物理ディスクに対し、データをコピーする。


分類 FAQ
ストレージ IBM DS4000シリーズにおけるHDD・LUN構成の推奨値
説明
・1Arrayを構成するのに使用する、物理ディスクの数は4〜6とする
・1Array内に作成する論理ドライブ(LUN)の数は、2〜3とする。数が多いほど、対象Arrayへのアクセスが増える可能性が高くなるため、一般的に数が少ない
 ほどパフォーマンスはよい。
 


分類 FAQ
ストレージ IBM DS4000/FAStT Storage Managerにおける設定値「Media Scan Settings」とは?
説明
「Storage Manager(Subsystem Management)」画面より、任意のLUNを右クリック - 「Change」 - 「Media Scan Settings」で表示される「Change Media Scan Settings」画面より指定できる当設定値は、「ディスク表面の損傷チェック」及び「パリティ・ビットの整合性」を30日置きにシステムに自動で行わせるためのものである。

  ・「Without redundancy check」にチェックを入れた場合は、Media Scan(ディスク表面の損傷チェック)のみ。
  ・「With redundancy check」にチェックを入れた場合は、あわせてRAIDのParity整合性チェックまで行う。


実行時のパフォーマンス劣化を考えると、「redundancy check」は行わない(= データ保全性の観点から、Media Scanだけは実施)ほうが望ましい。

なお、実行間隔を変更するには、「Storage Manager(Subsystem Management)」画面より、メニュー「Storage Subsystem」 - 「Change」 - 「Media Scan Settings」を選択。「Change Media Scan Settings」画面で、

  ・「Enable background media scan」にチェック
  ・「Duration」の値を1-30(Day)の任意の値に変更
 


分類 FAQ
ストレージ 日立SANRISEディスク バックアップ/リストアの状態遷移
説明
1.前提
 正VOLから副VOLへデータのミラー・バックアップ(resync)を行う。リストア時は、副VOLに退避したデータを正VOLに戻す。

DBサーバ BKサーバ
  
正VOL 副VOL テープ装置


2.バックアップ/リストアの状態遷移


(1)BKUPの状態遷移
参照「3.コマンド実行フロー」   正VOL 副VOL  
  PSUS SSUS  -
@ resync ->   
    PAIR PAIR  -
A split ->   
  PSUS COPY  -
B 時間経過 ->   
  PSUS SSUS  -
C 副VOLに退避したデータをテープにコピー

(2)RESTOREの状態遷移
参照「3.コマンド実行フロー」   正VOL 副VOL  
@ PSUS SSUS  -
A restore ->   
    RCPY RCPY  -
  時間経過->   
  PAIR PAIR  -
B split->   
  PSUS SSUS  <- 一連のリストア操作完了。起動OK(DB等)


参考)ShadowImageペアステータスについて

SMPL(シンプレックス) ShadowImageのペア対象外、またはペアの依存関係が全く無い初期状態。
PAIR(ペアー) 正VOL/副VOLが同期状態となっており、データの内容が同じ状態。
または、正VOLへの更新を逐次副VOLへ反映している状態。
PSUS/SSUS(ピーサス/エスサス) ペア分割コマンドにより、正VOLの更新が、副VOLに反映されない状態。
ただし、差分管理は行っており、次回ペア再同期コマンドにより同期する。
PSUS/COPY(ピーサス/コピー) 上記PSUS/SSUSと基本的には同じ。
ただし、高速リシンク/高速スプリット機能により、副VOLへのデータ反映が非同期に行われている状態。
COPY/COPY(コピー/コピー) ペアの初期生成を行っている場合、または非高速モード中の差分コピー中の状態。
RCPY/RCPY(リストアコピー) リストア再同期コマンドにより、正副VOLの差分管理(逆コピーの準備)を行っている状態。
差分管理が完了するとPAIR状態になる。
PSUE(ピーサスエラー) 何らかの原因(ディスク障害など)により、ペア状態にエラーが発生している状態。


3.コマンド実行フロー


参考)
SANRISE操作のための主なコマンド

(1)BKUP実行
@resync DBサーバ pairdisplay -g グループ名 -fcx sync率確認 -> ログ出力
pairevtwait -g グループ名 -s psus -t 5 正VOL状態確認
pairresync -g グループ名 resync
pairevtwait -g グループ名 -s pair -t 5 正VOL状態確認
Asplit DBサーバ pairevtwait -g グループ名 -s pair -t 5 正VOL状態確認
pairsplit -g グループ名 split
pairevtwait -g グループ名 -s psus -t 5 正VOL状態確認
B状態確認 BKUPサーバ pairdisplay -g グループ名 -fcx sync率確認 -> ログ出力
pairvolchk -g グループ名 -c -ss 副VOL SSUS確認(確認できるまでループ実行)
pairdisplay -g グループ名 -fcx sync率確認 -> ログ出力
Cテープバックアップ BKUPサーバ 副VOLに退避したデータをテープへ吸い上げ


(2)RESTORE実行
@事前確認 DBサーバ pairdisplay -g グループ名 -fcx sync率確認 -> ログ出力
pairvolchk -g グループ名 -c -ss 副VOL SSUS確認
pairdisplay -g グループ名 -fcx sync率確認 -> ログ出力
Arestore DBサーバ pairevtwait -g グループ名 -s psus -t 5 副VOL状態確認 -> ログ出力
pairresync -g グループ名 -restore レストア
pairevtwait -g グループ名 -s pair -t 5 正VOL状態確認(PAIRになるまでWAIT)
Bsplit DBサーバ pairevtwait -g グループ名 -s pair -t 5 正VOL状態確認
pairsplit -g グループ名 split
pairevtwait -g グループ名 -s psus -t 5 正VOL状態確認


分類 FAQ
ストレージ 日立SANRISE操作のための主なコマンド
説明
●dlmvaryonvg
ボリュームグループを活動化する。

●dlmvaryoffvg

ボリュームグループを非活動化する。

クラスタ環境でない場合、パーシステントリザーブを設定して複数のホストで共有するLU で作成したボリュームグループを活動化したままホストをシャットダウンすると、ほかのホストからボリュームグループ操作できなくなる。ホストをシャットダウンする前に、本コマンドを実行して、ボリュームグループを非活動化する必要がある。

なお、クラスタ環境では、クラスタソフトウェアがLU の占有状態を切り替えるため、ボリュームグループの非活動化は不要である。

●dlmpr

HDLM パーシステントリザーブ解除ユーティリティ。

クラスタ環境でない場合に、パーシステントリザーブを設定してLU を占有しているホストに障害が発生すると、ほかのホストからはLU にアクセスできなくなる。この場合は、HDLM パーシステントリザーブ解除ユーティリティを実行して、リザーブを解除する。

クラスタ構成でなく、複数のホストでボリュームグループを共有している場合に、何らかの要因でLU のパーシステントリザーブが解除されないときに、Reservation Key をクリアしてパーシステントリザーブを解除する。

●dlmexportvg

ボリュームグループをエクスポートする。

●dlmimportvg

ボリュームグループをインポートする。



※pairsplit、pairresync、pairvolchkともに、デバイス指定は不要(グループでの指定が可能)。

●pairsplit

ペア状態を維持して副ボリュームへの更新を中止する。

このコマンドの発行によって副ボリュームではRead またはRead/Write が可能になる。ペア分割の単位はペア論理ボリューム単位またはグループ単位に可能。

 -fq <mode>(HOMRCF のみ有効)
 このオプションはペア分割動作をクイックモードで実行するかどうかを指定する。

 mode=normal
 大型ディスクアレイ装置の設定と$HORCC_SPLT 環境変数に依存せずノンクイックモードで実行される。

 mode=quick
 大型ディスクアレイ装置の設定と$HORCC_SPLT 環境変数に依存せずクイックモードで実行される。

●pairresync

正ボリュームから副ボリュームへの更新を再開しペアを再同期する。

ペア再同期指示は正ボリュームをRead/Write 中でも可能であり、この再同期によって副ボリュームへの書込みは禁止状態になる。ペア再同期の単位はペア論理ボリューム単位またはグループ単位に可能。

※restoreの前提として、副VOLがSSUS状態であることが必要。よって、「-restore」指定でのコマンド実行前処理として、pairvolchkの実行が必要となる。
※「-restore」指定でコマンドを実行した場合、同期中であってもプロンプトが戻る。


●pairevtwait

ペア生成、再同期の完了待ち合せと状態確認をする。

このコマンドはペアボリュームのステータスが指定されたステータスになるまでウエイト(プロセス上はスリープ状態)して一致した時終了する。イベントウエイトの単位はペア論理ボリューム単位またはグループ単位に可能。

※pairevtwaitは、正VOL状態(PSUS/PAIR)の確認が可能。戻り値の確認ができるため、シェルハンドリングに向いている。ただし、副VOL状態(SSUS/PAIR/COPY)の
  確認については、実績に乏しいため、使用が推奨されていない。 -> pairvolchkを使用

※pairevtwaitの-tはタイムアウト指定である。デフォルトは3秒。


●pairvolchk

自サーバ(このコマンドを投入したサーバ)または、相手サーバに接続されているボリューム属性を取得して報告する。

報告するボリューム属性は「SMPL(ペアなし)」、「P -VOL (正ボリューム)」、「S -VOL (副ボリューム)」の何れかとなる。なお、このコマンドはペア論理ボリューム単位またはグループ単位に可能。

※pairvolchkは、副VOL状態の確認が可能。COPY(32)、SSUS(34)などの戻り値を確認できる。

●pairdisplay

ペア生成、再同期の完了を確認するためのペア状態を表示する。またこのコマンドでペアボリュームの接続パスの構成(サーバ間でのペアボリュームの物理リンク)を確認する。

※pairdisplayは、正/副VOL間のsync率及び両VOLの状態の確認が可能。しかし、結果の標準出力に特化した仕様であるため、シェルハンドリングに使用するのには
  向いていない。(=あくまでログ出力用)


●raidar

このコマンドは構成定義ファイルとは関係せずに大型ディスクアレイ装置上のSCSI/Fibre ポート、ターゲットID 、LUN #にマップされているデバイスの入出力活動状況を一定間隔で報告する。なお、このコマンドは終了指定([CTL]+[C])されるまで入出力活動状況を報告する。
 


分類 FAQ
ストレージ 日立SANRISE ShadowImage機能と連携したOracleデータベースのオンラインバックアップ運用
説明
1.Oracleオンラインバックアップ構成

本番機

・RAID Manager
・Oracle
バックアップサーバ
  +テープ装置

・RAID Manager
オンラインバックアップ非対象領域
制御
ファイル
パラメータ
ファイル
REDO
ログ
アーカイブ
ログ

SANRISE

オンラインバックアップ対象領域
ユーザ表領域
(正VOL)
-> ユーザ表領域
(副VOL)

表領域
1LU 1LU 1LU


2.前提条件


・ShadowImage機能と連携したOracleオンラインバックアップ対象領域は、表領域のみ。一時表領域、制御ファイル、各種パラメータファイル、REDOログおよび
 アーカイブログ等は、ShadowImage対象外。
・Shadowimage機能と連携したOracleオンラインバックアップ対象領域と非対象領域が同一LUに混在しないように配慮する。
・ShadowImage機能と連携したOracleオンラインバックアップ対象領域に対して、ShadowImage機能でペア生成が必要となる。
・OracleデータベースをARCHIVEモードで運用する必要がある。
・ShadowImage機能と連携したOracleオンラインバックアップ対象の複数の表領域が、1LU内に存在しないように設定することを推奨する。
・制御ファイルのバックアップはバックアップモード変更前に行うことを推奨する。
・REDOログのアーカイブは、バックアップモード変更前とバックアップ終了後に行うことを推奨する。


3.運用フロー

参考)ShadowImageペアステータスSANRISE主要コマンド

   
@通常運用時  (PSUS/SSUS)
     PSUS/SSUS(正VOLの更新が、副VOLに反映されてない)状態になっている。

   
Aオンラインバックアップモードへ移行 (PSUS/SSUS)
     Oracleのバックアップモードを「ノーマルモード」 -> 「オンラインバックアップモード」に変更

     ア.バックアップモードに変更する。
        SQL> alter database begin backup;

       バックアップモードに変更することで、対象となる表領域にチェックポイントが行なわれ、
       バックアップモード中のチェックポイントが行なわれないようにデータファイルヘッダが固定される。

       = データの変更は、データベースバッファキャッシュ上で行なわれるが、トランザクションが
          コミットされても、DBWnによりデータファイルに書き出す操作は行われない。
         (データファイルの適宜更新が発生しないので、コピーが可能な状態になる)

     イ.バックアップモードになっていることを確認する。
        SQL > select * from v$backup;
        FILE# STATUS CHANGE# TIME
        ---- ------ -------- ---------
         4 ACTIVE 17623198 06-09-13  
<-- ACTIVE!
         5 NOACTIVE 0

   
Bペア再同期  
     Oracleのバックアップ機能を使用せず、SUNRISE ShadowImageの機能で退避を行なう。
     
     ア.ペア再同期を行い、正VOLの更新を副VOLに反映 (COPY)
        > pairresync -g [group]


     イ.再同期完了。PAIR状態であることを確認。 (PAIR)
        > pairevtwait -g [group] -s pair -t [timeout]

   
C移行完了後、ペア分割 (PSUS/SSUS)
        > pairsplit -g [group] -s psus -t [timeout]
     
   
Dバックアップモードの解除およびログスイッチ (PSUS/SSUS)
     
     ア.バックアップモードを終了する。
         SQL> alter database end backup;

     イ.バックアップモードが終了したことを確認する。
        SQL > select * from v$backup;
        FILE# STATUS CHANGE# TIME
        ---- ------ -------- ---------
         4 NOACTIVE 17623198 06-09-13  
<-- 最終日時、SCN(システム変更番号)を確認する
         5 NOACTIVE 0

   
Eテープ装置へのバックアップ
     副VOLに退避した内容をテープ装置にバックアップ
 



分類 FAQ
SAN ゾーニングの構成と運用上の考慮点
説明
ゾーニングとは、SANスイッチの各ポート(物理的な接続口)もしくはデバイスのWWN(MACアドレスのようなもの)単位で、デバイス間のアクセスを分離制御するための機能である。ゾーンを設定した場合、各ゾーン内のメンバー同士でのみ、アクセスが許可される。

1.ゾーニングの種類

ゾーニングは、「スイッチの物理的なポート(ポートゾーニング)」、もしくは「接続デバイスのWWN(WWNゾーニング)」単位で定義する。

(1)ポートゾーニング
   デバイスが接続しているポートを指定して、ゾーンを作成する方法。HBAアダプターを交換してもゾーンがそのまま有効となるメリットがあるが、GBIC障害等で、ポートの
   差し替えが余儀なくされる場合は、ゾーンの設定変更が必要となる。どの物理ポートにどのデバイスが接続されているか、厳密な管理が必要となるため、デバイスの
   追加・変更が少ないシステムに向く。

(2)WWNゾーニング
   HBAアダプターのWWPNやノードのWWNNを指定して、ゾーンを作成する方法。スイッチの接続ポートを変えてもゾーンは有効になるメリットがある(ただし、AIXの場合は、
   デバイス再構成手順が必要になる。手順は以下コマンド参照)。ただし、HBAアダプター障害時には、ゾーンのWWNメンバーの設定変更が必要になる。
> umount /fs
> varyoffvg VG
> rmdev -Rl fscsiX

ポートの移動を行う

> cfgmgr -l fscsiX
> varyonvg VG
> mount /fs


2.ゾーン構成・運用上の考慮点


(1)同じサーバで同じデバイスに接続するときでも、別のHBAからアクセスする場合は、ゾーンを分ける

   イニシエータ(HBA)同士が干渉しあい、他のHBAのI/Oに影響を及ぼす可能性があるため。

   また、以下のような場合もゾーンを分けて対処する。
サーバ  ←デバイス側の接続口を二つにすると、その二つの口で通信を取り合う可能性があるので避ける
HBA
|
ポート
FCスイッチ
ポート ポート
| |
ControllerA ControllerB
ディスク

  

サーバ  ←その場合は、経路ごとにゾーンを分けて対処する
HBA HBA
| |
ポート ポート
ZoneA FCスイッチ ZoneB
ポート ポート
| |
ControllerA ControllerB
ディスク


(2)別の種類のサーバ(IBM pSeriesサーバとIBM xSeriesサーバなど)では、ゾーンを分ける


(3)ひとつのHBAから、異なる種類のデバイス(ディスク装置とテープ装置など)に接続する場合、ゾーンはデバイスごとに分ける
   ディスクとテープでは、I/Oのやり方、頻度が異なる。双方を同じゾーン内に設置した場合、書き込み頻度が高いディスクに引きずられ、書き込み頻度の低いテープの
   I/Oが不利になるケースが見受けられる。

(4)大規模なFabric(SAN構成)では、ゾーン数が多くなることに伴う、設定上の配慮が必要
   Windows2000 QLOgic adapterの場合は、registry buschange=0の設定が必要。「HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\ql2300」の
   「Device Parameters」に追加する)

(5)テープI/O中のゾーニング変更作業は避ける
   ディスクI/O中のゾーニング変更は可能。しかし、テープI/O中については、タイミング依存性の高いI/Oが多くを占めるため、当I/Oがタイムアウトになる可能性を
   回避する目的から、ゾーニング変更作業を避ける。

(6)ポートゾーニングの場合は、Interoperability Modeのセットができない
   Interoperability Modeとは、他社スイッチとのカスケード接続を行う場合に有効にする設定である。Interoperability Modeの設定は、WWPN(with alias)によるゾーニング
   の場合のみ有効にできる設定である。また、当設定を有効にした場合、Domain ID(各SANスイッチにユニークに割り振る番号)が自動的に97-127に変更されてしまう
   ため、Domain IDの設定時には配慮が必要である。
 


分類 FAQ
SAN FCスイッチのカスケード接続
説明
以下利点を得るために、複数のFCスイッチをカスケード接続することもできる。

 ・Fabric全体でのポート数を拡張
 ・経路冗長化による、耐障害性の向上(High Availability構成)
 ・Fabric全体でのバンド幅拡張
 ・デバイス間距離の拡張

サーバ1 サーバ2
| × |
FCスイッチ1 = FCスイッチ2
| × |
デバイス1 デバイス2

上図のように、FCスイッチ間に複数リンクを設ければ、経路の負荷分散を行うことができる。また、最短パスを自動計算し、障害時も自動で経路切り替えを行う
仕組みにも対応できる(IBM RDACなど)。


1.カスケード接続時の注意点

(1)以下図のように、サーバから、デバイスまでは、2ホップ以下でいけるようにする


サーバ1 サーバ2
| × |
FCスイッチ1 = FCスイッチ2
|| × ||
FCスイッチ3 = FCスイッチ4
| × |
デバイス1 デバイス2

   ホップ数の考慮は、構成が複雑になると難しくなることから、ポート数の拡張が目的なら、ポート数が多い大規模なFCスイッチであるDirectorを導入し回避するのが
   望ましい。

(2)各FCスイッチに割り当てる「Domain ID」は1-239までのユニークな番号を割り当てる。「switch Name」についてもユニークな値を設定する
   新規スイッチを既存スイッチFabricに接続する場合、新規スイッチをファイバーチャネルにつないでから電源を上げると、自動的にDomain IDをNegotiateしてくれる。
   ただし、既に稼働しているスイッチ同士を繋ぐ場合は、事前に重複が発生しないよう設定変更する必要がある。

(3)カスケード接続を行う際に、Domain IDを変更する必要性が発生した場合、PortIDについても変更が発生してしまう
   Port IDは、「DomainID、Port番号」で構成される。そのため、以下例のような場合は、ゾーンの変更が発生する。

FCスイッチ1(DomainID:1)
PortID:(1,1) PortID:(1,6)
| |
サーバ1 デバイス1

  
 上図のようなポートゾーニングの環境において、カスケード接続するためにDomainIDを変更した

FCスイッチ1(DomainID:1)
|
FCスイッチ2(DomainID:2)
PortID:(2,1) PortID:(2,6)  ←PortIDが変更になる
| |
サーバ1 デバイス1

ゾーンの変更が発生する場合、AIXの場合はデバイスの再認識が必要となる。Solarisの場合、Port ID Bindingの際に、構成ファイルの変更&再構成のためのリブートが
必要になる。


分類 FAQ
SAN LUNマスキング
説明
LUNマスキング(ストレージ・パーティショニング:Storage Partitioning)とは、SANストレージ上に作成した、各論理ドライブ(LUN)を、どのサーバに使用させるかの割り当て定義のことである。通常ストレージ側で定義する。LUNマスキングは、論理ディスク単位で行われるため、ゾーニングよりも高いレベルの細分性を提供することができる。

●参考:ひとつのLUNを複数のサーバで共用する場合、排他制御が必要
  サーバA サーバB サーバC
LUN1    
LUN2    
LUN3  

<-- ひとつのLUNを複数のサーバで使用できるように設定した場合、サーバAからの書き込み中にサーバCが
   そのデータにアクセスしてしまう可能性がある。そこでクラスタ・ソフトなど何らかの排他制御を行うツールが
   別途必要になる。


スイッチは、フレームを送信するために、データ・フレーム・ヘッダーに含まれているポート・アドレスを調べる。従って、ポート・レベルで行われるゾーニングによって、スイッチ処理の待ち時間が長くなることはない。しかし、もしスイッチがLUNレベルのマスキングを実装していると、そのスイッチは、ストレージ・ノードに送信されるすべてのデータ・パケットを開いてLUNアドレスを取得し、アクセス権を判別しなければならないため、この処理によって、スイッチ処理の待ち時間が非常に長くなる可能性がある。そこで、LUNマスキングは、通常、スイッチ・ベンダーによって実装されることはない。

●FCデータ・フレーム
4バイト
SOF
24バイト
フレーム・ヘッダー
212バイト データ・フィールド 4バイト
CRC
4バイト
EOF
64バイト
オプション・ヘッダ
2048バイト
ペイロード
(通常、スイッチによって検査されない
LUNアドレス・フィールド)

 


分類 FAQ
SAN iSCSIとは?(20051227)
説明
記憶装置(ストレージ)の相互接続とネットワークの相互接続とは、大いに異なったデザイン上の基準を持っていた。記憶装置の相互接続は、高速、低レイテンシー(処理が完了するまでの時間が短いこと)、そして比較的短い距離を想定して作られていた。そこではコンピューターシステムがすべての周辺機器の「マスター」として動作する。一方、ネットワークでは、より長い距離が求められ、低いスピードが許容され、ネットワーク上のすべてのシステムが対等に扱われる。ストレージシステムはデータの大きなブロックを転送するのに最適化され、ネットワークはより小さなメッセージをたくさん運ぶことに最適化された。

1Gbpsを超える性能を持つ高速なシリアル・データ・リンクが出現したことによって、IP(Internet Protocol)ネットワークの基礎の上に記憶装置の相互接続をデザインしようという動きが出てきた。これがIP SAN(Storage Network)である。SANは複数のサーバーが記憶装置に直接アクセスすることを可能にする。サーバーと記憶装置を分離することで、サーバーと記憶装置を、別個に拡大/縮小させることが可能になった。また、1個のサーバーが壌れても他のサーバーがそれをカバーして記憶装置へのアクセスを保つことも可能である。これは「クラスタリング」と呼ばれる構成の鍵となる部分である。


1.SCSIコマンドの数フェーズをまとめる

SANと広く使われているEthernetインフラを組み合わせるには、Ethernet上で記憶装置のトラフィックをやりとりする
方法を見付けなければならない。これはSCSI Architechture Model-2(SAM2)によってSCSIの入出力プロトコルをTCP
(Transport Control Protocol)の上に詳細に表現することで実現できる。一書上のレベルでは、SCSIは入出力デバイスからサービスを引き出すプロトコルである。「イニシエーター」がSCSIコマンドを発行し、それが、SCSIバス上にある特定の「ターゲット」が持つ論理ユニットに送られる。以下図は典型的なパラレルSCSIトランザクションである。

●SCSIコマンドの例
SCSIコマンドの典型的な例。書き込み(Write)コマンドと、読み取り(Read)コマンドを送り、書き込みステータスと読み取りステータスが戻って来る。書き込みにどの程度時間がかかるかわからないので、書き込みを終えた時点で一度切断(ディスコネクト)する。

・書き込みコマンドと書き込むべきデータ
A S MO C DO MI
sid sid id,tag cdb data discon

・読み取りコマンド
A S MO C MI
sid sid id,tag cdb discon

・書き込みステータス
A R MI ST MI
sid sid id,tag status done

・読み取られたデータとステータス
A R MI DI ST MI
sid sid id,tag data status done

フェーズ:
A:アービトレーション(調停) 
C:コマンド
R:リセレクション
ST:ステータス
DI:データイン
DO:データアウト
MI:メッセージイン
MO:メッセージアウト
内容:
sid:SCSI ID
cdb:コマンド・データ・ブロック
data:データ
status:ステータス
id:アイデンティファイ・メッセージ
tag:タグ・メッセージ
discon:ディスコネクトメッセージ
done:コマンド・ダン・メッセージ

最初に、データを伴ったWrite(書き込み)コマンドが、イニシエーターからターゲットに送られる。ターゲットはWriteを実行する時にはいったん接続の切断(ディスコネクト)を行う。続いてReadコマンドが送られ、これはターゲットによってキューに格納される。そして、Writeが終了するとターゲットが再接続をし、読み取ったデータとステータスを返す。パラレルSCSIでは、5本のワイヤーが1組になってフェーズを定義し、データは16本のワイヤーで送られる(16ビットSCSIの場合)。

iSCSIプロトコルはSCSIの各フェーズが含む情報を以下図のようにiSCSI PDU(Protocol Data Unit)にカプセル化する。

●iSCSI PDU(Protocol Data Units)の例(先頭部分)
1つのSCSIコマンドがiSCSIのPDU(Protocol Data Unit)に変換された例。SCSIコマンドの複数フェーズが1つのPDUに格納される。これを「フェーズ・バインディング」と呼ぶ。AHSはAdditional Header Structureの略。
バイト 0 1 2 3
  0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7
0 . I 0x01 F R W . . 属性 リザーブド
4 AHS長 データセグメント長
8~12 論理ユニット番号(LUN)
16 イニシエーター・タスク・タグ
20 期待されるデータ長
24 コマンドシーケンス番号
28 期待されるステータスシーケンス番号
32~44 SCSIコマンド・デスクリプター・ブロック(CDB)

性能を上げるために、iSCSIは複数のフェーズの情報を取り出して1つのPDUに格納する。これを「フェーズバインディング」と呼ぶ。たとえば、iSCSI PDUでは、Rフラグ(読み込みフラグ)、Wフラグ(書き込みフラグ)の両方を1にして、読み込みと書き込みを一気に行える(双方向オペレーションと呼ぶ)。iSCSI PDUは、IPベースのEthernetフレームに格納されて送られる。


2.iSCSIは低コストで構築/管理できる

iSCSIはインフラストラクチャーとして既存のEthernetを使えるため、低コストで構築でき、管理するのも簡単である。FC(Fibre Channel)ほどの性能やサービスの質は必要としない(もっと安い方がいい)という顧客に、SANの市場を広げる役割を果たすiSCSIがもたらす最大のインパクトは、すべてをIPネットワークに統合できることである。FCは敷設できる距離が限られるため、クライアント接続用のIPネットワークとは別個に構築/管理する必要があった。iSCSIはEthernetをベースにしているため、LANでもWANでもMAN(Metro Area Network)でも関係がない。以下図中央のように、全体を1つのネットワークに統合できる。もちろん、以下図右に示したように、サーバーと記憶装置の間は二重化が可能である。

●従来型のFC SANと、これからのiSCSIネットワーク
従来のネットワークでは、サーバーとクライアントを結ぶIPネットワーク(インターネット)と、サーバとストレージ(記憶装置)を結ぶファイバー・チャネル・ネットワークが別々に存在していた。それが、iSCSIよって統合され、構築、管理コストが下がる。FCはFibre Channel、SANはStorage Area Networkの略。
 
・従来のFCをベースにしたネットワーク AA ・これからのiSCSIネットワーク(論理的) AA ・これからのiSCSIネットワーク(物理的
クライアント クライアント クライアント
IPネットワーク サーバ IPネットワーク ストレージ IPネットワーク
サーバー サーバ
FC SAN GigabitEther(パスは冗長化)
ストレージ ストレージ



IPネットワークに統合することによって、遠隔バックアップ、遠隔ミラーリングといった要求にこたえられるし、管理も楽になる。iSCSIのキーとなる部品を一つ挙げるとすれば、「TOE(TCP/IP Offload Engine)」であろうか。コンピューター(イニシエーター)には常駐型のiSCSI処理ソフトウエアを入れるか、TOEを入れてハードウエアで処理するかの選択になる。AdaptecのTOE搭載iSCSI HBAである「ASA-7211C」は1000BASE-Tのインターフェースを持ち、カテゴリー5EのケーブルでスイッチまたはiSCSIの記憶装置に接続して使う。TOEボードはiSCSI環境においてサーバーのプロセッサー負荷を軽減する役割を果たす。iSCSIのソフトウエアエンジンは、GbE上で30M〜50MB/秒のデータ転送を行う場合でさえ、CPUの処理能力の30〜50%、もしくはそれ以上を消費することになる。TOEを使い、iSCSIのターゲットがそれに合わせた構造をしていれば、80M〜100MB/秒、もしくはそれ以上のデータ転送が可能になる。記憶装置とサーバーの間の接続では、10GbpsのEthernetが市場に浸透するのも違い日のことではないだろう。
 


分類 FAQ
SCSI規格
説明