Úvod
Výběr vhodného datového média je klíčový pro úspěšný proces zálohování a následné obnovy dat. Existuje velké množství různých datových nosičů a každý má své výhody a nevýhody. Nelze jednoznačně říct, že médium x je naprosto nevhodné pro zálohování. Záleží vždy na povaze dat, data retention, vašem zálohovacím modelu a samozřejmě finančních možnostech.
Než ale začneme, tak si musíme říct, co budeme chápat pod pojmem datové médium. Pod pojmem datový nosič nebo datové či záznamové médium, si můžeme představit nějaké paměťové zařízení, které pro uchování informací používá určitou formu záznamu. V oblasti počítačů se jedná zejména o záznam elektronický, optický a magnetický.
Při práci s počítačem potřebuje člověk často uchovávat svá data v počítači nebo je přenášet na jiný. V praxi se obvykle pod pojmem datové médium myslí právě přenosné zařízeni. V tomto článku jej však budeme chápat jako obecný nosič informací, ať už přenosný, či ne. Dále bych chtěl předeslat, že nebudeme rozebírat technologie, které pásky, disky atd. používají, do detailu, ale zaměříme se na jejich vlastnosti související s výběrem toho správného pro zálohování.
Pravidlo 3-2-1
Než se pustíme dále, tak bych ještě rád zmínil pravidlo 3-2-1, na které se budeme v tomto a dalších článcích odkazovat. Toto pravidlo sice není moc známé, ale jeho dodržování vám zajistí vysokou bezpečnost vašich dat. Pokud si dekomponujeme název na jednotlivá čísla, tak jejich význam je následující.
Trojka představuje počet kopií všech důležitých dat. Do kopií se počítají i primární. Dvojka znamená, že jsou soubory umístěné na dvou různých typech médií (kvůli možné degradaci jednoho z nich). Nakonec jednička specifikuje jednu kopii dat uloženou off-site, tzn. někde mimo vaše standardní pracoviště. Proč ukládat data mimo svůj domov nebo práci? Protože přírodní katastrofa vám lehce zničí primární data i zálohy, které máte uschované v daném místě. U nás sice zemětřesení a hurikány nehrozí, ale ohni a vodě se těžko vyhneme.
Jsou firmy, které off-site zálohy neřeší přenosem dat do jiné lokality pomocí internetu, ale denní či týdenní zálohy odváží na jinou pobočku do sejfu (autem, dodávkou, nebo u malých firem si je odveze technik domů). Často se takto převážejí pásky. Zde si však dejte pozor např. na vyhřívané sedačky, které produkují magnetické pole, a pásky vám tak můžou lehce zničit. Kontrolujete však zálohy, že?
Pokud byste z nějakého důvodu nemohli mít zálohy off-site, a chcete splnit toto pravidlo, tak stačí mít jednu kopii záloh alespoň off-line, tzn. na médiu, které připojíte jen pro účel od-zálohování dat a běžně je odpojené. To vám nicméně nezaručí tak velké bezpečí vašich cenných dat jako off-site záloha.
Nebudu zde popisovat historii ani různé moderní technologie, ale zaměříme se na média používaná dnes běžně k zálohování, jež jsou léty ověřena a jsou dobře známy jejich vlastnosti.
Pásky a páskové knihovny
Pásková média jsou vysoce kapacitní zařízení, snadno se přemísťují, a mohou být tak jednoduše uložena mimo místo zálohy, viz off-site záloha. Doba skladovatelnosti u páskových médií se pohybuje od 15 do 30 let, což dělá z pásek ideální médium pro archivaci dat. Vzhledem k jejich snadné vyměnitelnosti je jednoduché škálovat úložnou kapacitu.
Mezi hlavní nevýhody patří náchylnost na poškození magnetickým polem, velkou vlhkostí či teplotou. Další minus je „rychlost čtení“ a pomalý seek time, jež jsou dány sekvenčním přístupem. Rychlost čtení jsme umístili do uvozovek záměrně, protože zařízení umí číst data z pásek velmi rychle (140 MiB/s v případě LTO5).
Problém je v čase, než se k požadovaným datům na dané pásce dostane. Sekvenční čtení neumožňuje skočit na dané místo jako v případě náhodného přístupu (random access), který používají pevné disky, ale je nutné se k datům postupně prokousat. Kapacita pásek je u LTO5 (číslo udává generaci) stanovena na 1,5 TB. Tato hodnota udává počet dat, která se vejdou na jednu pásku bez použití komprese.
Pokud použijeme kompresi, dostáváme se na mnohem větší hodnotu, jež je závislá na zvoleném kompresním poměru. Kupříkladu IBM používá kompresní poměr 3:1, což ve výsledku znamená možnost uložit až 3,5 TB na jednu LTO5.
V případě použití robotizovaných systémů výměny médií (knihoven, autoloader) jezdí robot, který vyhledá požadovanou pásku (catridge), na kterou chceme zapisovat nebo z ní číst podle barcodu, a vloží ji do drivu (zařízení provádějící zápis/čtení pásek). V knihovně může být robotů i drivů více, záleží na vašich potřebách a finančních možnostech.
Zálohování na pásky (Hannes Grobe, CC-BY)
Jestliže máte více pásek, tak doporučuji nezapisovat neustále na jednu či menší počet vyhrazených pásek, ale snažit se pásky „rotovat“. Důvodem je snižování jejich životnosti opakovaným zápisem. Uvádí se hodnota 260 průchodů celou páskou (jeden průchod znamená zapsání tolika dat, že to zaplní celou pásku). Ještě zmíním, že LTO používá technologii verify-after-write, která kontroluje automaticky zapsaná data. Některé zálohovací softwary provádějí vlastní kontrolu pásek, a tím pádem zbytečně snižují jejich životnost na polovic.
Pevné disky
Jsou dnes velice rozšířené díky dobrému poměru kapacity a ceny, doprovázené dostatečnou rychlostí čtení a zápisu dat. Hlavní nevýhodou je mechanické řešení, které má vysokou spotřebu elektrické energie, je náchylné na poškození při nešetrném zacházení (náraz nebo otřesy mohou způsobit, že se hlava dotkne magnetické vrstvy, a tím ji poškodí) a vyšší hmotnost.
Rychlý pohled do útrob disku
Disk se skládá většinou z několika ploten (A), na kterých jsou stopy (D) v podobě soustředných kružnic. V souvislosti se stopami se dále zavádí termín cylinder, který označuje všechny stopy ploten, které jsou nad sebou a tvoří tak pomyslný dutý válec (D, E). Díky cylindrům se hlavy (C) pevného disku využívají rovnoměrně, a disk tak má vyšší výkon.
Disk se tedy plní při zápisu po cylindrech, a ne po plotnách, aby se průběžně využívaly všechny hlavy, jež jsou umístěny na jednom společném ramenu (B). Každá stopa se dále dělí na sektory (F), což jsou nejmenší adresovatelné jednotky disku. Dnes je velikost sektorů nejčastěji 4096 B (4 KB). Větší sektory oproti starším 512 B usnadňují práci ECC (Error-Correcting Code), která pak dokáže efektivněji obnovovat poškozená data. Dále také většina moderních souborových systémů pracuje se 4KB sektory.
Jak vypadá pevný disk uvnitř (Bub, public domain)
Na samotné plotně je během výroby nanesena magnetická vrstva, na niž zapisují hlavy pomocí principu magnetické indukce. Plotny se neustále otáčejí konstantní rychlostí (5400, 7200... otáček za minutu), čímž se nad nimi vytváří tenoučká vzduchová vrstva, „polštářek“ (v řádu desetin mikronů), na kterém se doslova vznášejí čtecí/zapisovací hlavy.
Již jsme zmínili, že se hlava nesmí dotknout magnetické vrstvy, protože by ji poškodila. I když však necháme disk v absolutním klidu a nebudeme s ním hýbat, tak může dojít k jiné poruše. Kupříkladu: elektrický zkrat, výpadky, přepětí elektrické energie v síti, mechanická závada materiálu v konstrukci disku, zestárnutí (degradace) magnetického povrchu disku, porušení protiprachové ochrany, polití disku vodou, čajem, kávou nebo jinou tekutinou atd. Katastrofických scénářů bychom opět vymysleli spoustu.
RAID (Redundant Array of Independent Disks)
Disky nemusíme mít nutně samostatně, ale můžeme je seskupovat dohromady, za účelem vyšší spolehlivosti nebo rychlosti. Této skupině se říká RAID pole a můžeme ho vytvářet buď softwarově (pomocí prostředků operačního systému), což je sice levné, ale méně spolehlivé a „výkonné“ (toto není nutně pravda). Nebo hardwarově, kdy se o vše stará vyhrazený interní nebo externí řadič. Popsat, jak funguje RAID, by vydalo na samostatný článek, takže se zde spokojíme jen se základním rozdělením:
RAID 0 (také se mu říká stripping bez parity)
Minimum disků pro vytvoření tohoto pole jsou dva. Data jsou uložena střídavě v tzv. proužcích (stripy). Dobře to je vidět na obrázku níže. Pokud chceme zapsat soubor, tak ten se nejdříve rozdělí na menší velikosti (stripy) a první se zapíše na disk 0, druhý na disk 1, třetí na disk 0 atd. Protože dochází k současnému zápisu/čtení na, resp. z více disků, získáváme zrychlení rovné počtu disků. U RAID 0 je důležité mít na paměti, že porucha jednoho disku znamená ztrátu všech dat (na všech discích v poli).
Princip RAID0 (Colin M. L. Burnett, CC-BY-SA + GFDL)
RAID 1 (také se mu říká mirroring bez parity)
Podobně jako v případě RAID 0 i zde je minimum disků pro vytvoření pole rovné dvou. Data jsou zrcadlena na ostatní disky. Dochází zde k mírnému zpomalení, jež závisí na nejpomalejším disku v poli. Důvodem je fakt, že zápis souboru musí být proveden na všech discích, než se přejde k dalšímu souboru. Na druhou stranu, technikou zrcadlení získáme redundanci a v případě výpadku libovolného disku v poli nepřicházíme o data.
Princip RAID1 (Colin M. L. Burnett, CC-BY-SA + GFDL)
RAID 5 (striping s distribuovanou paritou)
Toto pole vyžaduje minimálně 3 disky. Kromě dat se ukládá i tzv. parita (na obrázku značená dolním indexem „p“), z které je možno případně obnovit poškozená data. Při čtení dostáváme zrychlení n-1 krát (čte se najednou ze všech disků mimo parity). V případě zápisu je třeba paritu nově uložených dat spočítat. Pro urychlení výpočtů slouží hardwarová akcelerace na řadiči. Využitelná kapacita v případě RAID 5 je n-1 krát velikost disku a poradí si s výpadkem libovolného jednoho disku.
Princip RAID5 (Colin M. L. Burnett, CC-BY-SA + GFDL)
Výčtem dalších RAID polí bychom mohli pokračovat, ale kvůli rozsahu článku, zde již jen zmíním další dvě často používané, a to RAID 6 a 10.
RAID 6 je obdoba RAID 5, s tím rozdílem, že je zde parita ukládaná dvakrát. Zvládne tedy výpadek libovolných dvou disků. Minimální počet disků na vytvoření pole je 4 a výsledná kapacita je (n-2). RAID 10 je kombinace RAID 1 (bezpečnost) a RAID 0 (rychlost). Zde potřebujete na vytvoření pole stejně jako u RAID 5 alespoň 4 disky a výsledná kapacita je (n/2).
Na závěr si uvedeme důležité pojmy související s RAIDem:
- Hot-swap připojení je vlastnost diskového pole a disku, která umožňuje výměnu disku za chodu.
- Hot-spare disk je náhradní disk, který se použije v případě poruchy nějakého disku v poli. Dojde tedy k automatické synchronizaci dat (plus dopočítání parity, pokud ji RAID využívá). Z důvodu rovnoměrného zatížení všech disků se doporučuje tento hot-spare disk cyklicky měnit.
Architektury připojení diskového úložiště
Disky je možné k počítači připojit různým způsobem. Výběr záleží čistě na našich potřebách a požadovaném způsobu práce se zařízením.
DAS (Directly Attached Storage)
Pevný disk (zařízení) připojený klasicky přímo k počítači (internímu nebo externímu řadiči) pomocí SCSI, SAS, SATA nebo PATA.
NAS (Network Attached Storage)
Datové úložiště připojené po síti pomocí TCP/IP. Toto zařízení často pohání Samba server (používající CIFS protokol), který se lehce konfiguruje a používá. Dále se můžeme setkat s NFS (Network File System), který je dnes běžný v prostředí GNU/Linux a podobných OS, či klasickými protokoly, jako je FTP, HTTP atd. Výhodou NAS oproti DAS připojení je sdílení dat mezi všemi počítači, které máme připojené do sítě.
SAN (Storage Area Network)
Nejlepší připojení vzdáleného úložiště po stránce výkonu nabízí SAN. Využívá pro komunikaci zpravidla dedikovanou (vyhrazenou) síť a protokoly pracující přímo s diskovými bloky. SAN řešení je postaveno na SCSI protokolu, který je buď zabalen pomocí FCP (Fibre Channel Protocol) kvůli přenosu přes FC (Fibre Channel) nebo pomocí iSCSI (Internet Small Computer System Protocol) pro přenos přes TCP/IP.
Mezi další protokoly patří Fibre Channel over Ethernet, SCSI over Ethernet atd., ale nejsou tolik rozšířené. Kromě větší rychlosti oproti NAS se také disk (zařízení) v systému tváří, jako by byl přímo připojen. Můžeme s ním tedy pracovat jako s lokálně připojeným diskem.
K SAN se ještě váže jeden důležitý pojem, a to je LUN (Logical Unit Number). Jedná se o identifikátor virtuálních disků, které jsou vytvořeny na SAN diskovém poli. V případě, že chceme virtuální disk nasdílet na více serverů, tak jim stačí přiřadit daný LUN.
Optická média
Základní princip je stejný pro všechny optická média, jako jsou CD, DVD a nejnovější Blu-ray (BR) a HD DVD disky. Princip holografických disků (tzv. čtvrtou generaci optických disků) zde nebudeme popisovat.
Každé optické médium se skládá z několika vrstev. Tři základní vrstvy mají všechny společné: vrstvu polykarbonátového substrátu, záznamovou vrstvu a odrazivou vrstvu. Nosiče mohou navíc obsahovat i další vrstvy, které se zejména využívají k ochraně vnitřních vrstev před poškozením atd. Nyní si popíšeme funkce základních vrstev.
Vrstva polykarbonátového substrátu chrání médium proti mechanickému poškození a zároveň slouží k usměrňování laserového paprsku na záznamovou vrstvu.
Jakmile laser projde vrstvou polykarbonátovou substrátu, tak dopadne na záznamovou vrstvu. Ta, jak název napovídá, slouží pro samotný záznam dat. V případě nosičů s jedním zápisem (CD-R, DVD-R, BR-R) je použito organické barvivo. Pro přepisovací média je použita speciální chemická sloučenina, která působením energie změní fázi z krystalické na amorfní a zpět.
Odrazivá vrstva slouží pro čtení tím, že odráží laserový paprsek do fotodiody. V případě médií jen pro čtení (CD-ROM, DVD-ROM, BR-ROM) a přepisovatelných (CD-RW, DVD-RW, BR-RE) je použit hliník, který je však náchylný na oxidaci s kyslíkem a vodou (vlhkost okolního prostředí). Zapisovatelná média (CD-R, DVD-R) používají stříbro nebo zlato. Stříbro má lepší odrazové vlastnosti, ale zase podléhá oxidaci s oxidem siřičitým. Zlato nepodléhá oxidaci s oxidem siřičitým, ale jeho cena je vyšší.
Optický disk pod mikroskopem (Freiermensch, CC-BY + GFDL)
Jak jsme již uvedli při popisu jednotlivých vrstev, tak pro záznam i pro čtení je použit laser. Vlnová délka určuje hustotu záznamu (u CD to je 780 nm, DVD 650 nm a BR 405 nm). Hustotu záznamu ovlivňují i další faktory, ale to bychom museli jít zbytečně do detailů. Uvedeme si zde jen výsledné hodnoty jednotlivých médií (s jednou vrstvou a jednou stranou použitou pro záznam) – CD 700 MB, DVD 4,7 GB a BR 25 GB. Za použití více vrstev a stran můžeme dosáhnout násobků těchto kapacit.
Když jsme si udělali rámcovou představu, jak optická média fungují, tak si nyní můžeme říct jejich „pros and cons“ relevantní k zálohování. Mezi výhody určitě patří jednoduchá obsluha a dostupnost mechanik (nachází se prakticky ve všech počítačích), necitlivost na magnetické pole a otřesy. Na druhou stranu jsou velmi náchylná k opotřebení a mechanickému poškození (nečistoty, prach, otisky prstů, ...). Pro nejdelší životnost je nutné je uchovat v temném místě s minimální vlhkostí.
Závěr
Dnes jsme si řekli něco o páskách a páskových knihovnách. Pokračovali jsme popisem útrob pevných disků přes jejich skládání do pole až k možným architekturám přístupu k diskovému úložišti. Na závěr jsme se podívali na optická média z pohledu zálohování. Příště nás čekají flash paměti, možnost ukládání dat do cloudu a výčet zakončíme analogovými nosiči.
Stay tuned!