Transcript
RAID en BACKUP Een theoretische inleiding
Hans Jonkers
INHOUD
1. INLEIDING .......................................................................................... 2 2. RAID....................................................................................................... 3 2.1. RAID LEVELS ................................................................................................................................................................ 3 2.1.1. RAID 0 : Striped set without parity..................................................................................................................3 2.1.2. RAID 1 : Mirroring and duplexing...................................................................................................................4 2.1.3. RAID 2 : Parallel array with Hamming Code ECC......................................................................................4 2.1.4. RAID 3 : Parallel array with parity.................................................................................................................5 2.1.5. RAID 4 : Parallel array with parity (blocks) ..................................................................................................5 2.1.6. RAID 5 : Striped array with rotating parity ...................................................................................................6 2.1.7. RAID 6 : Striped array with double parity .....................................................................................................6 2.1.8. RAID 7 : Optimized asynchrony for high I/O rates as well as high data transfer rates. ........................7 2.1.9. RAID 10 : Mirroring and striping....................................................................................................................7 2.1.10. RAID 0+1 : Stripe set with mirror or duplex ...............................................................................................8 2.1.11. RAID 53 : High I/O rates and data transfer performance. ........................................................................8 2.2. RAID TOEPASSEN ......................................................................................................................................................... 9 2.2.1. Benodigdheden om een RAID set op te zetten ................................................................................................9 2.2.2. Hardware RAID...................................................................................................................................................9 2.2.3. Software RAID....................................................................................................................................................10 2.2.4. Hardware vs. Software RAID...........................................................................................................................10 2.2.5. Herstellen van een gefaalde schijf in de set ..................................................................................................10
3. BACKUP .............................................................................................12 3.1. DEFINITIE ..................................................................................................................................................................... 12 3.2. BACKUP LEVELS EN METHODES................................................................................................................................ 12 3.2.1. Full level .............................................................................................................................................................12 3.2.2. Incremental level ...............................................................................................................................................12 3.2.3. Differential level................................................................................................................................................12 3.2.4. File-by-file methode ..........................................................................................................................................13 3.2.5. Disk-image methode..........................................................................................................................................13 3.3. M EDIA-ROTATIE SCHEMA’S....................................................................................................................................... 13 3.3.1. Grandfather-Father-Son media-rotatie schema...........................................................................................13 3.3.2. “Toren van Hanoï” media-rotatie schema ...................................................................................................14 3.4. BACKUP TOEPASSEN ................................................................................................................................................... 15
RAID en Backup – Een theoretische inleiding
1. Inleiding Sinds het gebruik van de eerste computer moet data beschermd worden tegen 3 factoren : • Menselijke fouten • Hardware fouten • Omgevingsfactoren en rampen Backup – het periodisch opslaan van data op externe media die eventueel off-site wordt bewaard – was hier een goede oplossing voor. Het nadeel van backup is echter dat de continuiteit van een systeem onderbroken wordt wanneer een fout optreedt, het terugzetten van data neemt immers tijd in beslag. Backup volstond dus niet om de continuiteit van datavoorziening te garanderen. Omdat data vooral op harde schijven aangeboden werd was het logisch om te starten met “mirroring”, een techniek die de data beschermt in geval van fouten, maar die bovendien de mogelijkheid bood om de data direct na de fout opnieuw te kunnen aanbieden, in het geval de fout zich enkel voordeed op één schijf van het gemirrorde paar. Systemen die gebruik maken van “mirrored disks” kosten minstens het dubbele van nietgemirrorde systemen. De uitdaging bestond er dus in een goedkopere oplossing te vinden. In de jaren ’80 leidde dit tot de ontwikkeling van RAID – Redundant Arrays of Independent Disks (overvloedige set van onafhankelijke schijven). In plaats van een perfecte kopie te nemen van de data (100%) zal RAID de data onder andere gaan beschermen aan de hand van een pariteitscontrole, die zich op een andere disk bevindt dan de schijven (2 of meer) die de data bewaren en waaruit de pariteitscontrole wordt berekend. Hierdoor kan de 100% van een gemirrorde disk terug gebracht worden tot 10 à 33% van de oorspronkelijke data. Het gebruik van deze pariteits-RAID had uiteraard tot gevolg dat de performantie van de datavoorziening achteruit ging : de pariteit diende telkens berekend te worden tijdens het schrijven van data naar disk. Ook in het geval dat een fout optrad moest de fout hersteld worden aan de hand van de pariteit, wat weer berekeningen met zich meebracht. Dit alles werd echter snel opgelost door technieken zoals caching, write-assist disks, enz ... wat een groei veroorzaakte in het gebruik van pariteit-RAID in het midden van de jaren ’90. Naargelang de prijzen van harde schijven lager werden en de nood aan continuiteit steeg, werd de aandacht van ontwikkelaars meer getrokken naar andere componenten in disksystemen die, wanneer ze faalden, ook verlies van data of continuiteit tot gevolg hadden. De performantie van disk-systemen werd ook steeds belangrijker. Twee decennia van aandacht aan alles wat data-protectie, data-continuiteit, en performantie aangaat heeft geleid tot een hele selectie van disk-systemen met een verschillende graad van bescherming tegen fouten en rampen, en een uiteenlopende performantie.
Hans Jonkers
2
RAID en Backup – Een theoretische inleiding
2. RAID RAID (Redundant Array of Independent Disks, of oorspronkelijk Redundant Array of Inexpensive Disks) werd ontwikkeld aan de universiteit van Californië in Berkeley door Patterson, Gibson en Katz in 1987. De bedoeling van hun werk was het combineren van verschillende kleine, goedkope harde schijven tot een systeem dat performant en betrouwbaar was, maar voor de computer en gebruiker op één harde schijf leek. Zo ontstonden de RAIDlevels 1 t/m 5, die elk op hun eigen manier zorgden voor en bepaalde vorm van fouttolerantie. Naast deze 5 RAID-levels – met als taak het beschermen van data tegen het falen van disks (data-protectie) – wordt algemeen ook nog gesproken over RAID 0 (een combinatie van disks die performanter is dan één afzonderlijke disk, maar niks toevoegt aan fout-tolerantie), RAID 6, RAID 7 en de combinaties RAID 10, RAID 0+1 en RAID 53. RAID biedt geen bescherming tegen menselijke fouten zoals bijvoorbeeld het ongewild deleten van data. Hiervoor blijft een goede backup noodzakelijk. 2.1. RAID levels 2.1.1. RAID 0 : Striped set without parity
Bij RAID 0 wordt de data over de verschillende, parallel gekoppelde, harde schijven verdeeld (striping). Hierdoor wordt de performantie van het opvragen en wegschrijven van data verbeterd, vooral wanneer iedere harde schijf gekoppeld is aan een aparte controller. Er wordt echter niet voorzien in data-protectie. Wanneer één van de harde schijven in de set faalt gaat alle data verloren. Hierdoor wordt RAID 0 vooral gebruikt voor performante systemen waarin verlies van data niet kritiek is. Er zijn minstens 2 harde schijven nodig om RAID 0 toe te passen.
Hans Jonkers
3
RAID en Backup – Een theoretische inleiding
2.1.2. RAID 1 : Mirroring and duplexing
De data wordt volledig en exact gekopieerd op een tweede harde schijf, waardoor de data beschermd is tegen het falen van 1 disk. Het verschil tussen een mirror en een duplex is dat bij een mirror de twee harde schijven zich op dezelfde controller bevinden en bij een duplex op aparte controllers. Een duplex biedt bijgevolg nog meer zekerheid : het uitvallen van 1 controller zal het aanbieden van data niet onderbreken. RAID 1 is zeer betrouwbaar, maar voegt niet veel toe aan de performantie van het systeem. Lezen gaat mogelijk iets sneller (elk van de harde schijven kan simultaan zijn eigen onafhankelijk lees-operatie uitvoeren, wanneer er geen schrijf-operatie actief is), maar schrijven op de set zal bij de meeste RAID 1 sets trager gaan omdat ieder bestand 2 maal weggeschreven dient te worden. Nietemin blijft RAID 1 de beste prestatie leveren, vergeleken met de andere redundante array types (RAID 1 t/m RAID 5). Het grootste nadeel van RAID 1 is echter dat de opslagcapaciteit niet efficiënt gebruikt wordt, alle data moet immers voor 100% gekopieerd worden naar de mirror-disk. RAID 1 zal daarom vooral gebruikt worden voor systemen waarbij data-continuïteit primeert boven een efficiënt gebruik van de opslagcapaciteit. Voor RAID 1 zijn - net zoals bij RAID 0 - minstens 2 harde schijven nodig. 2.1.3. RAID 2 : Parallel array with Hamming Code ECC
RAID 2 bestaat uit verschillende data-disks en ECC-disks. De data zal in sectoren verdeeld (ge-striped) worden op de verschillende data-disks en voor ieder weggeschreven data-word zal een, volgens de Hamming Code berekende, ECC (Error Correcting Code) weggeschreven Hans Jonkers
4
RAID en Backup – Een theoretische inleiding worden op de ECC-disks. Tijdens het lezen zal aan de hand van de respectievelijke ECC de data nagekeken worden op fouten, en eventueel hersteld worden. Omdat alle harde schijven de dag van vandaag het gebruik van ECC informatie toepassen biedt RAID 2 geen uitgesproken voordeel ten opzichte van de andere RAID architecturen, en wordt RAID 2 niet meer toegepast. 2.1.4. RAID 3 : Parallel array with parity
Bij RAID 3 zal de data, net zoals bij RAID 2, per sector verdeeld worden over de verschillende data-disks. Naast deze data-disks zal een parity-disk aangewezen worden om parity-informatie op te slaan. RAID 3 vertrouwt bovendien op de ECC in iedere sector op iedere harde schijf voor error-detectie op sector-niveau. In het geval dat een data-disk faalt wordt de data-recovery mogelijk gemaakt door aan de hand van de parity-informatie te berekenen welke data de gefaalde disk bevatte. Bestanden zullen normaal gezien verspreid liggen over alle harde schijven wat de performantie ten goede komt, maar omdat ieder I/O request alle harde schijven aanspreekt kan maar aan één I/O request gelijktijdig voldaan worden. Daarom is RAID 3 eigenlijk alleen maar geschikt voor systemen bestemd voor Single-User/Single-Tasking systemen. RAID 3 heeft minstens 3 harde schijven nodig om geïmplementeerd te worden. 2.1.5. RAID 4 : Parallel array with parity (blocks)
RAID 4 is identiek aan RAID 3, alleen wordt bij RAID 4 de data in grotere "stripes" weggeschreven (blokken) zodat een bestand van 1 harde schijf kan afgelezen worden. Dit laat toe dat er meerdere lees-operaties tegelijkertijd kunnen plaatsvinden, in tegenstelling tot RAID 3 waar maar aan één I/O request tegelijkertijd kon voldaan worden. Omdat nog steeds Hans Jonkers
5
RAID en Backup – Een theoretische inleiding bij iedere schrijf-operatie de parity-disk moet ge-update worden blijft het onmogelijk de schrijf-operatie gelijktijdig uit te voeren met een ander I/O request. De RAID 4 architectuur biedt geen noemenswaardige voordelen over andere redundante array types (RAID 1 t/m RAID 5), waardoor RAID 4 weinig of niet wordt gebruikt. RAID 4 heeft minstens 3 harde schijven nodig om geïmplementeerd te worden. 2.1.6. RAID 5 : Striped array with rotating parity
RAID 5, soms ook wel een Rotating Parity Array genoemd, ontwijkt de bottleneck die veroorzaakt wordt door het gebruik van één toegewezen parity-disk bij RAID 3 en RAID 4. RAID 5 zal niet 1 parity-disk toewijzen, maar de parity-informatie verspreiden over alle harde schijven in de set. Omdat nu alle schijven zowel data als parity-informatie bevatten kunnen I/O requests elkaar meer overlappen, zowel voor schrijven als voor lezen. Hierdoor wordt tegemoetgekomen aan zowel eisen omtrent fout-tolerantie, performantie en efficiënt gebruik van de opslagcapaciteit, waardoor RAID 5 tot op vandaag de meest gebruikte RAID architectuur is. RAID 5 heeft minstens 3 harde schijven nodig om geïmplementeerd te worden. 2.1.7. RAID 6 : Striped array with double parity
RAID 6 is een uitbreiding op RAID 5 en zorgt voor meer fault-tolerance door het gebruik van een tweede onafhankelijk gedistribueerd pariteitsschema (twee-dimensionele pariteit). De data wordt verdeeld op blokniveau over de set van disks met berekening van de pariteit, net zoals
Hans Jonkers
6
RAID en Backup – Een theoretische inleiding RAID 5, en een tweede pariteitsset wordt berekend over de set van disks en over de disks verdeeld. RAID 6 voorziet een extreem hoge fout-tolerantie en kan het falen van meerdere disks tegelijk aan, maar boet in aan performantie - door het berekenen van de dubbele pariteit - en efficiëntie wat betreft het gebruik van de opslagcapaciteit. RAID 6 heeft minstens 4 harde schijven nodig. 2.1.8. RAID 7 : Optimized asynchrony for high I/O rates as well as high data transfer rates.
RAID 7 is een geregistreerde toepassing van Storage Computer Corporation. Het maakt gebruik van een eigen real-time operating systeem, cache, een toegewezen parity-disk, standby disks, snelle bussen, SNMP management, ... Het grote voordeel van RAID 7 is de snelheid waarmee data uitgewisseld wordt terwijl een hoge fout-tolerantie verzekerd wordt. Daartegenover staat : • De extreem hoge kost per MB opslagcapaciteit • Niet “user serviceable” • RAID 7 is geen algemene standaard. 2.1.9. RAID 10 : Mirroring and striping
RAID 10 is een combinatie van RAID 0 en RAID 1. De data wordt eerst gemirrord (RAID 1) en vervolgens ge-striped (RAID 0). De fout tolerantie van RAID 10 is net dezelfde als die van een RAID 1 set, maar de performantie wordt verbeterd door gebruik te maken van een stripeset van de mirror. RAID 10 wordt vooral gebruikt voor databases die een hoge fout-tolerantie en performantie eisen.
Hans Jonkers
7
RAID en Backup – Een theoretische inleiding
RAID 10 heeft minstens 4 harde schijven nodig om geïmplementeerd te worden. 2.1.10. RAID 0+1 : Stripe set with mirror or duplex
RAID 0+1 is, net zoals RAID 10, een combinatie van RAID 0 en RAID 1. RAID 0+1 mag echter niet verward worden met RAID 10. Wanneer in een RAID 0+1 set een disk faalt zal de set in principe een RAID 0 set worden tot de herstelling van de set. Het grote voordeel van RAID 0+1 is de grotere performantie door het gebruik van meerdere stripe-sets. Nadeel is de overhead aan disks die gebruikt wat het systeem duurder maakt. RAID 0+1 heeft minstens 4 harde schijven nodig om geïmplementeerd te worden. 2.1.11. RAID 53 : High I/O rates and data transfer performance.
RAID 53 zou eigenlijk RAID 03 genoemd moeten worden. Het is namelijk een stripe-set (RAID 0) die een RAID 3 set als segment heeft. RAID 53 is een goede oplossing voor bedrijven die een RAID 3 zouden nemen, maar die extra performantie nodig hebben. De extra performantie wordt geleverd door de extra stripe van de data (RAID 0). RAID 53 heeft minstens 5 harde schijven nodig om geïmplementeerd te worden.
Hans Jonkers
8
RAID en Backup – Een theoretische inleiding 2.2. RAID toepassen 2.2.1. Benodigdheden om een RAID set op te zetten Voor het gebruik van RAID zijn uiteraard meerdere harde schijven nodig. Een RAID set kan niet opgezet worden op verschillende partities op 1 harde schijf, dit zou het voordeel van een RAID set – het verbeteren van de betrouwbaarheid of performanitie – bovendien teniet doen. Het aantal harde schijven is afhankelijk van de capaciteit en het RAID systeem. Om het meest efficiënt met de capaciteit van de verschillende harde schijven in de RAID set om te springen wordt het best gekozen voor harde schijven met dezelfde karakteristieken (snelheid en capaciteit). Wanneer een RAID set bestaat uit harde schijven met een verschillende capaciteit zullen alle harde schijven geformatteerd worden volgens de capaciteit van de kleinste schijf. Naast de harde schijven is een RAID controller nodig, zowel SCSI (vooral servers) als IDE (vooral eindgebruikers en thuisgebruikers) kunnen gebruikt worden. Een andere mogelijkheid is een besturingssysteem dat RAID ondersteund zoals Windows NT, Windows 2000 of Windows XP, of RAID software. De software is in dit geval eigenlijk de RAID controller. Wanneer er gebruik wordt gemaakt van een fysieke RAID controller spreken we van een hardwarematige RAID, als er gebruik wordt gemaakt van RAID binnen een besturingssysteem of als extra software, dan spreken we van een softwarematige RAID. Normaal gesproken zijn de prestaties van hardwarematige RAID beter dan van softwarematige RAID omdat de hardwarematige toepassingen vaak beschikken over een eigen processor, geheugen en in sommige gevallen besturingssysteem. Een softwarematige RAID zal de resources van de server (of PC) gebruiken waarop hij is geïnstalleerd, en daardoor minder resources overlaten voor de rest van de taken van het systeem. 2.2.2. Hardware RAID Een op hardware gebaseerd systeem beheert het RAID subsysteem onafhankelijk van de host (server of PC) en biedt één enkele disk per RAID array aan, aan de host. Op deze manier hoeft de host zich niet bewust te zijn van het RAID subsysteem (en de meerdere harde schijven daarin). Er bestaan 2 types hardware RAIDs : Controller based RAIDs en External RAIDs. •
Controller based RAIDs : Een intelligente controller beheert het RAID subsysteem onafhankelijk van de host. Het voordeel ten opzichte van een SCSI-SCSI RAID subsysteem is dat de controller de mogelijkheid heeft om het RAID subsysteem over meerdere SCSI kanalen te verspreiden en hierdoor de limiterende factor van External RAIDs weg te nemen, nl. de snelheid over de SCSI bus.
•
External RAIDs (SCSI-SCSI RAID) : Een een External RAID eenheid verhuist alle RAID intelligentie in een controller die zich bevindt in het externe RAID subsysteem. Het volledige subsysteem is verbonden met de host via een gewone SCSI controller en doet zich aan het systeem voor als één enkele harde schijf. Deze oplossing heeft een groot nadeel ten opzichte va de Controller based RAID : Het RAID subsysteem gebruikt 1 SCSI kanaal waardoor een bottleneck ontstaat.
Hans Jonkers
9
RAID en Backup – Een theoretische inleiding 2.2.3. Software RAID Een software RAID maakt geen gebruik meer van een fysieke RAID controller. De software zal de taken van de controller overnemen, en een RAID samenstellen gebruik makend van alle of enkele van de harde schijven die zich in het systeem bevinden. Software RAIDs kunnen ingebouwd zijn in het besturingssysteem. Zo vinden we bijvoorbeeld : • De MD driver in Linux. Deze kan RAID 0, RAID 1, RAID 4 en RAID 5 aan. • Windows NT Server 4.0 heeft RAID 0, RAID 1 en RAID 5 ingebouwd. Daarnaast kan extra software op de host geïnstalleerd worden om als het ware de RAID controller te simuleren. Voorbeelden hiervan zijn : • ATTO ExpressStripe (RAID 0) en ATTO ExpressRAID (RAID 1) voor Mac OS. • Compaq RAID Software (RAID 0 en RAID 5) voor het OpenVMS besturingssysteem. 2.2.4. Hardware vs. Software RAID Net zoals elke andere applicatie verbruiken software RAIDs geheugen en processortijd van de host, en zijn ze afhankelijk van het besturingssysteem. Door te concurreren met de andere applicaties die op hetzelfde moment op de host draaien zullen ze de performantie van de host doen afnemen. Ook is hun performantie direct afhankelijk van de totale performantie en gebruik van het systeem, in tegenstelling tot hardware RAIDs. Met uitzondering van de RAID-functionaliteit hebben hardware RAIDs weinig gemeen met software RAIDs. Omdat de host processor applicaties van de gebruiker kan uitvoeren terwijl de RAID processor gelijktijdig de RAID functies kan uitvoeren, kunnen we bij een hardware RAID spreken over echte hardware multi-tasking. Hardware RAIDs zullen ook geen geheugen of processortijd van de host verbruiken en zijn niet afhankelijk van het besturingssysteem. Hardware RAIDs zijn bovendien ook veel beter bestand tegen fouten die zich kunnen voordoen. Omdat de RAID logica vastgelegd is in de hardware is het niet nodig de RAID op te bouwen tijdens het booten. Sommige software RAIDs daarentegen zullen het systeem verhinderen om op te starten wanneer er iets fout loopt op de boot-disk die deel uitmaakt van de RAID. Een software RAID heeft immers de software nodig op één of enkele van de harde schijven die zich bevinden in de RAID, om de RAID op te bouwen tijdens het booten, maar omdat de software voor de RAID niet kan geladen worden kan de RAID niet correct opgebouwd worden. Het is aangeraden dat de RAID software geen deel uitmaakt van de RAID zelf. 2.2.5. Herstellen van een gefaalde schijf in de set We hebben gezien dat (RAID 0 buiten beschouwing gelaten) de data in een RAID set op twee manieren kan verzekerd worden : • door gebruik te maken van een mirror • door gebruik te maken van een ECC (parity of Hamming Code) Met uitzondering van RAID 0 kan een gefaalde harde schijf in de RAID set hierdoor hersteld worden. Dit kan gedaan worden door de gefaalde harde schijf fysiek uit de RAID te halen en te vervangen door een nieuwe harde schijf, of door gebruik te maken van een “hot spare”. Hans Jonkers
10
RAID en Backup – Een theoretische inleiding Deze herstelling gebeurt online terwijl de normale lees en schrijf operaties gewoon verder gaan. RAID levels die gebruik maken van een mirror worden relatief snel hersteld : er dient enkel een kopie gemaakt te worden van de data. Een gefaalde harde schijf herstellen in RAID levels die gebruik maken van een ECC neemt iets meer tijd in beslag : de gefaalde harde schijf dient opnieuw opgebouwd te worden aan de hand van veeleisende berekeningen die door de RAID controller dienen uitgevoerd te worden. In beide gevallen zal de performantie van het systeem tijdens het herstellen tijdelijk afnemen, maar alles gebeurt online. De data-continuiteit is hierdoor een feit !
Hans Jonkers
11
RAID en Backup – Een theoretische inleiding
3. Backup RAID biedt de mogelijkheid om data te beschermen tegen hardware fouten en heeft het grote voordeel dat gebruikers niet veel zullen merken van een gefaalde harde schijf in het systeem, maar het toepassen van RAID in een omgeving zal de data nog steeds niet beschermen tegen menselijk fouten (bv. het ongewild deleten van data), omgevingsfactoren en rampen of meervoudige harde schijven die gelijktijdig onderuit gaan (in de meeste RAID sets). Hiervoor blijft een goede backup noodzakelijk. 3.1. Definitie Backup is het kopiëren van bestanden die zich op een online opslagmedium bevinden naar een offline opslagmedium met de doelstelling de data veilig te stellen tegen verlies. Backups zijn het enige middel tegen verlies van data door menselijke fouten, rampen en virussen. Backups worden meestal genomen van harde schijven naar tapes. Het terugzetten van verloren bestanden vanaf een backup wordt “restoren” genoemd. 3.2. Backup levels en methodes Er zijn 3 backup levels die gebruikt worden voor verschillende media-rotatie schema’s : full, incremental en differential. Binnen deze drie levels kunnen 2 methodes gebruikt worden : de file-by-file methode en de disk-image methode. 3.2.1. Full level Een full backup kopieert alle bestanden, zowel systeembestanden als gebruikersbestanden. Wekelijkse, maandelijkse en kwartaal backups zijn meestal full backups. De eerste wekelijkse backup zou een full backup moeten zijn, meestal vrijdags of over het weekend gemaakt, die alle bestanden op een systeem bevat. De daaropvolgende maandag-tot-donderdag backups, tot de volgende full backup, kan dan zowel een incremental of differential backup zijn om tijd en backup media ruimte te sparen. Ideaal worden full backups minstens wekelijks gemaakt. 3.2.2. Incremental level Een incremental backup kopieert alleen de bestanden die veranderd zijn sinds de laatste full of incremental backup. Gemiddeld neemt een incremental backup minder tijd in beslag dan een full backup omdat er minder bestanden gebackupt dienen te worden. Het restoren van de data zal echter meer tijd in beslag nemen omdat bij een volledige restore zowel de full backup als de daaropvolgende incremental backups dienen teruggezet te worden. 3.2.3. Differential level Een differential backup kopieert alle bestanden die veranderd zijn sinds de de laatste full backup. Het restoren van een differential backup is sneller dan het restoren van een incremental backup, omdat nu alleen de laatste full backup en de laatste differential backup dienen teruggezet te worden. Tussenliggende backups hoeven in dit geval niet meer Hans Jonkers
12
RAID en Backup – Een theoretische inleiding teruggezet te worden. Differential backup wordt steeds populairder omdat het veranderingen van bestanden vasthoudt op verschillende tijdsintervals (bijvoorbeeld vlak voor een virusinfectie). 3.2.4. File-by-file methode De file-by-file methode kopieert iedere file opeenvolgend en afzonderlijk naar de backup. Een Verify-optie wordt hier meestal bij voorzien en het wordt aangeraden deze ook te gebruiken. Met de Verify-optie actief wordt iedere file na het kopiëren opnieuw gelezen van de harde schijf en vergeleken met de kopie op de backup.
Omdat bij deze methode sterk gefragmenteerde schijven meer tijd in beslag nemen op gebackupt te worden ten gevolge van het zoeken naar bestandsfragmenten, kan het nemen van de backup versneld worden door de harde schijf regelmatig te defragmenteren. 3.2.5. Disk-image methode De disk-image methode kopieert de data sector per sector naar de backup, net zoals deze op de harde schijf staat. Deze methode van backup verloopt snel omdat de backupmedia op die manier het uiterste van zijn snelheid kan halen. Disk-image backups kunnen een snelle restore van een systeem voorzien en in vele gevallen ook individuele bestanden restoren. 3.3. Media-rotatie schema’s Een goed media-rotatie schema voorziet in het terugzetten van bestanden van op eender welk tijdstip (zoals bijvoorbeeld vlak voor een virus-infectie). Het “Grandfather-Father-Son” (GFS) en het “Toren van Hanoï” schema zijn twee goede media-rotatie schema’s die voorzien in lange en gevarieerde historiek van bestandsversie’s. 3.3.1. Grandfather-Father-Son media-rotatie schema Het Grandfather-Father-Son (GFS) media-rotatie schema is het meest gebruikte. Hier worden dagelijkse (Son), wekelijkse (Father) en maandelijkse (Grandfather) backups genomen.
Hans Jonkers
13
RAID en Backup – Een theoretische inleiding
Vier backup media’s worden gelabeled naar de dag van de week waarop ze gebruikt worden voor de backup, bijvoorbeeld maandag tot donderdag. Deze vier media’s worden de “son”groep genoemd, en worden meestal gebruikt voor een incremental backup. Ze worden iedere week opnieuw gebruikt op hun respectievelijke dag. De “Father”-groep is een set van vijf media die gelabeld worden als week1, week2, enz ... en maandelijks wordt hergebruikt. Hierop wordt iedere week een full backup gezet op de dag dat er geen “son”-media wordt gebruikt, bijvoorbeeld op vrijdag. De laatste set media is de “Grandfather”-groep. Deze wordt gelabeld als maand1, maand2, enz ..., wordt gebruikt als full backup op de laatste werkdag van de maand en wordt ieder kwartaal opnieuw gebruikt. Dit media-rotatie schema heeft minstens 12 media-eenheden nodig (bijvoorbeeld tapes) en laat een historiek van twee tot drie maand toe. Als een langere historiek gewenst is kan men ervoor kiezen de media-eenheden in de “Grandfather”-groep niet te laten roteren, maar telkens bij te houden en te vervangen door nieuwe media-eenheden.
3.3.2. “Toren van Hanoï” media-rotatie schema Het “Toren van Hanoï” media-rotatie schema gebruikt meer media-sets dan het GFS schema, maar verhoogt ook de kans dat te restoren data wordt teruggevonden. In dit media-rotatie schema wordt één media set (A) om de andere dag gebruikt. Een tweede set (B) start op de tweede dag en wordt om de vier dagen opnieuw gebruikt. De derde set (C) start op de vierde dag en wordt om de 8 dagen gebruikt. De vierde set (D) wordt gestart op de achtste dag en om de 16 dagen gebruikt. Een vijfde set (E) alterneert met media-set D.
Hans Jonkers
14
RAID en Backup – Een theoretische inleiding
De backup historiek verdubbelt met iedere media-set die wordt toegevoegd aan het rotatieschema. De media-sets die het meest frequent gebruikt worden zullen de meest recente bestandsversies bewaren, terwijl de minder frequent gebruikte sets oudere versies bevatten. Het schema kan zowel aangewend worden voor dagelijkse als wekelijkse backups. De beslissing over de rotatie-frequentie die gebruikt zal worden hangt af van de hoeveelheid data die verandert op de harde schijven. Om een voldoende historiek van bestandsversies te kunnen waarborgen zijn er minstens vijf media-sets nodig in een wekelijks schema, of acht sets in een dagelijks schema. Net zoals bij het GFS schema kan men ook hier kiezen om regelmatig sets uit rotatie te halen en te vervangen door nieuwe om een langere historiek te verkrijgen. 3.4. Backup toepassen Meestal wordt gekozen voor tape backup systemen. Een tape backup systeem bestaat uit tapedrives die geïntegreerd zijn in de servers, of tape-robots die verbonden zijn met een “dedicated” server, en backup-software zoals ARCserve (Computer Associates), Backup Exec (Veritas), Networker (Legato Systems), Hiback/Hibars (Hicomp Software Systems) en NT Backup (maakt deel uit van Windows NT). Kleinere sites met weinig servers kunnen makkelijk iedere server voorzien van een eigen tape-drive of één server uitrusten met een tape-drive die dan dienst doent als “backup centrale”; andere servers zullen hun data dan over het LAN naar die ene server zenden om daar op tape gezet te worden. Deze kleinschalige vorm van LAN backup kan men automatisch ’s nachts laten plaatsvinden om de netwerkbelasting overdag te vermijden. Grotere sites met een groot server park zullen eerder voor backups over het LAN kiezen, naar één of meerdere tape-drives of naar een tape-robot die gekoppeld zijn aan een backup-server. Backups over het LAN lijken efficiënter voor deze grotere sites, maar zorgen voor een grote belasting van het netwerk, en worden onbruikbaar voor bedrijven die 24 uur op 24 gebruik maken van hun LAN. Een oplossing hiervoor kan gevonden worden in het gebruiken van een apart netwerk voor de backups. In dit geval spreken we over een SAN (Storage Area Networks) of een NAS (Network Attached Storage). Dit betekent wel dat iedere server moet voorzien zijn van een tweede netwerkkaart die de server connecteert met het netwerk dat instaat voor de backups.
Hans Jonkers
15
RAID en Backup – Een theoretische inleiding Voor kleinschalige toepassingen kan gekozen worden voor Ethernet, voor grotere kan men glasvezelnetwerken gebruiken. Eens de backups gemaakt zijn moeten ze uiteraard nog veilig worden bijgehouden. Het heeft geen zin een perfect backup plan op te stellen als tapes verloren kunnen gaan of beschadigd kunnen worden. Tapes worden best bewaard in een brandkast om ze veilig te stellen voor omgevingsfactoren of onzorgvuldig gebruik. Voor nóg meer veiligheid kan bovendien gekozen worden de tapes (of een kopie ervan) off-site te bewaren zodat ze als het ware veilig gesteld zijn tegen rampen. Hiervoor kunnen gespecialiseerde firma’s ingehuurd worden zoals bijvoorbeeld Merak nv.
______________________________ ____________________ __________
Hans Jonkers
16