Guide: passo per passo

Condividi:        

Hard Disk
PREMESSA: se non conoscete il significato di qualche parola consultate il nostro Glossario.
2. Utilità del raid

La diffusione del RAID è stata veramente notevole, tant'è che non solo i server delle grandi aziende ma anche le workstation delle piccole imprese o uffici affidano i propri dati ad un array. Questo è dovuto essenzialmente a due fattori: 1 - i dati aziendali conservati in un disco sono vitali 2 - quel disco prima o poi si danneggerà.
Per ridurre i costi dovuti ai downtime, lo storage deve essere studiato ponendo la massima attenzione a quei tre parametri fondamentali che complessivamente vengono indicati come RAS: Realiability - Availability - Serviceability (da non confondersi con il RAS - Raw Address Strobe - proprio della RAM).


RELIABILITY: affidabilità
Esprime il momento o la frequenza con cui si manifesta un guasto ed è oltremodo conosciuta come MTBF (Mean Time Before Failure) la cui unità di misura è l'ora. L'MTBF è proprio di ciascun componente, dalla motherboard ai dischi, persino delle ventole di raffreddamento. Restando nell'ambito dello storage l'MTBF di un disco dichiarato dal produttore può essere relativamente alto (500.000, 800.000 o più ore) ma il reale dimensionamento dell'affidabilità deve tenere conto che quando si parla di reliability bisogna tenere a mente che si tratta di calcoli statistici e non di dati certi. Il valore espresso di MTBF di un componente è un valore medio espresso dai dati relativi a un campione preso dalla produzione e non è detto che il nostro disco (o altro) rientri in questa categoria. Inoltre l'ambiente operativo in cui poniamo il disco potrebbe non essere lo stesso in cui sono stati effettuati i test per determinare l'MTBF e quindi i valori potrebbero discostarsi da quelli dichiarati. La situazione fin qui considerata si riferisce solo ad un drive senza contemplare tutto il resto che compone il computer, e gli eventuali altri dischi. Se infatti ritenete di avere l'ambiente operativo ideale, e siete soddisfatti del MTBF della vostra unità, sappiate che solo aggiungendone un'altra identica l'MTBF della sezione storage si dimezza. Se vi state domandando il perché, non avete tenuto a mente che stiamo operando in ambito statistico.

Fino ad ora abbiamo considerato l'MTBF di un singolo disco come dato dichiarato, ne abbiamo aggiunto un secondo verificando che l'MTBF totale dei due dischi (o sezione storage) si è dimezzato secondo la formula



Aggiungendo altri dischi si riduce ulteriormente il valore. Per calcolare l'MTBF totale bisogna inserire in formula tutti gli MTBF relativi a tutti i componenti,anche quelli non vitali, per valutare quando un guasto (anche banale) potrebbe verificarsi. Quindi



Questo calcolo (detto del MTBF totale) mette in luce come la protezione dei dati sia quanto mai necessaria, ed affidarsi ad un array RAID rappresenta una soluzione efficace, flessibile e di facile implementazione.


AVAILABILITY: disponibilità
Indica l'accessibilità dei dati cioè la possibilità di leggerli e scriverli, e la disponibilità di farlo full time è un obiettivo importantissimo, definito dall'integrità dei dati e dalla capacità di fault tolerance.

L'integrità dei dati è intesa come la capacità di ottenere il dato corretto. Errori di software o di altro genere (interferenze, anomalie) possono causare una non corretta scrittura dei dati.

La maggioranza dei sistemi RAID offre la riparazione dinamica degli essere, in modo diverso a seconda dell'architettura: il RAID software solitamente si appoggia alle capacità del bus SCSI che può intercettare errori di 1 bit ma non correggerli, mentre quello hardware contiene un codice di correzione degli errori molto più sofisticato, che nella maggioranza dei casi intercetta 4 bit e ne corregge 1. Inoltre la memoria sul controller può essere di tipo ECC per migliorare ancora la sicurezza.
La fault tolerance, cioè tolleranza dei guasti, è un aspetto chiave e viene comunemente raggiunta con l'utilizzo di architetture ridondanti: il RAID rappresenta una tecnologia ridondante applicata allo storage dei dati, ma questa feature è stata introdotta in molti altri componenti per garantire l'uptime del computer tra cui alimentatori e ventole. Due casi interessanti di ridondanza sono quelli di controller RAID ridondanti grazie all'architettura Active-Active o Active-Passive e addirittura delle singole unità di elaborazione, tra cui quelle implementate nelle unità Alpha di fascia alta prodotte da Compaq.

Per capire come la ridondanza possa permettere fault tolerance, la definiamo come un duplicato di un componente che permette l'accessibilità dei dati in caso di guasto del componente primario. E' come in una macchina: si buca una ruota, sotto quella di scorta e via!


SERVICE ABILITY: timbrare il cartellino
Rappresenta l'entrata in servizio in caso di guasto e viene valutata rispetto al tempo e alla fatica impiegati nell'individuare e riparare il guasto e riprendere le normali attvità. Si distinguono tecniche di recovery e di monitoring dell'array.

Nella prima categoria troviamo l'hot swap, una caratteristica che permette la sostituzione di un componente "a caldo" cioè mentre il computer (o la macchina in generale) è in funzione. L'hot swap in una configurazione RAID permette l'estrazione del disco e la sua sostituzione con una nuova unità senza dover interrompere l'attività degli altri dischi. Le capacità di ricostruzione del controller RAID provvederanno al rebuilding del disco. Ventole e alimentatori hot swap possono essere rimpiazzati a caldo in caso di guasto.

Attenzione: per essere rimpiazzato a caldo un componente deve essere stato progettato appositamente in quanto deve staccare la messa a terra dopo la fase al momento dell'estrazione e ripristinare la messa a terra prima della fase durante l'inserimento.

Sempre in campo di dischi una tecnologia interessante è l'HOT SPARE, la versione automatica dell'HOT SWAP: se infatti quest'ultima prevede l'intervento manuale dell'operatore per sostituire il componente danneggiato, l'HOT SPARE, in caso di guasto di un disco nell'array, permette al controller di individuare e isolare l'unità danneggiata, sostituirla con un'altra precedentemente impostata come scorta, riconfigurare l'array e ripartire senza interrompere l'accesso ai dati.Ci sono anche tecniche di monitoraggio sia dei singoli dischi che delle enclosures (le unità esterne di storage) dell'array. S.M.A.R.T. sta per Self Monitoring Analysis and Reporting Technology e rappresenta lo standard per il controllo dei dischi, permettendo di precedere i guasti e di sostituire le unità a rischio. SAF-TE (SCSI Accessed Fault Tolerance Eclosure) è invece dedicato alle enclosure.


Hard Disk: hydra [150 visite dal 20 Dicembre 04 @ 00:01 am]
Indice
1. Introduzione
2. Utilità del raid
3. Architetture RAID
4. Altri Accorgimenti Tecnici
Guide correlate a "":