訂定資料備份策略的思考方向


王俊皓
(原文刊於學術調查研究資料庫通訊第57期)
電腦已是現代進行研究不可或缺的工具,不論是查找資料、撰寫論文或保存資料數據,乃至於分析、模擬及實驗等,都能透過電腦,幫助我們方便的完成這些工作。然而電腦雖然方便,但電子式資料的安全,也存在著一定的風險,不論是軟體上的檔案損壞、軟體或作業系統問題,乃至於電腦硬體的損壞、甚至遭竊等,都可能在一夕之間,讓研究者的心血付之流水。因此,資料的備份及保護,亦是學術研究者不可不關注的焦點。
在決定備份的策略時,通常需要考慮下列六點因素:

  • 資料的區分
  • 備份模式
  • 備份的頻率、保留之週期及保留時間
  • 備份位置
  • 備份媒體
  • 備份工具

一、 資料的區分
首先需要慎重考量的,便是針對資料本身,區分出何者是重要的資料?何者是暫時存放的資料?何者是系統設定類的資訊檔案?是相當重要的事。平時在使用資料時,容易將各種資料混雜放置,然而有些資料僅用於輔助建立主要資料,可能使用數次後便可刪除;有些資料可能閱讀或檢視後便棄置不用;有些則是建立後不易再變更的資料,若沒有適時的區分,將不同性質的資料互相參雜,致使重要的資料隱沒於其他重要性不高的資料之中,將影響對資料的判斷及其備份策略的適切性,因此將不同重要程度的資料範圍區分出來,才能幫助我們在訂定資料備份策略時,能夠將焦點聚集於真正須備份的對象,或區分不同的對象,進而針對其重要性及需求等差異,訂定合適的備份策略。
二、 備份模式
一般常用備份模式可分為「完整備份」及「差異備份」。
「完整備份」顧名思義,就是針對所有資料進行備份,包含已更新或未更新之部分,優點是所有資料皆完整備份,若原始資料遺失或損毀,只需回復最新一份完整資料,即可取回最新備份資料;相對的,倘若資料量龐大,且更新項目少的話,就會造成許多內容相同且重複的備份,浪費備份空間。
「差異備份」主要是針對有進行異動動作的資料備份,通常做法為訂定一個較長的週期進行完整備份,在完整備份的週期之間,定期備份有進行異動的資料,差異備份主要可避免密集完整備份而浪費備份空間的問題;然而原始資料遺失或損毀,需進行資料備份回復時,在回復最後一份完整備份後,尚須逐一檢查每份定期差異備份,作業較為繁複是其主要的缺點。
一般個人或小型協作團體在實作資料備份時,通常會以完整備份模式為主,因不論手動備份或透過軟體自動備份,完整備份在操作上較為單純、不易出錯,進行備份資料回復也較直覺,但缺點則是較不容易針對單一資料搜尋版本更動經歷,需要檢視所有備份歷程才能得到特定的版本。另一需考量的點是,若資料量龐大,且可供備份空間有限的狀況下,完整備份的份數必然相對受到限制,因此若備份保留份數需要量較高情況下,較不適合使用完整備份。
而差異備份在操作上,若使用手動進行備份,在更新資料較多且分散的狀況下,固定周期進行備份時,需特別紀錄曾更新之資料,或人工進行與前次的完整備份及差異備份的比對,以避免備份時遺漏,與完整備份相較之下,作業較為繁瑣且容易產生錯誤,因此若使用差異備份模式,建議使用軟體輔助較為方便,但各軟體判斷差異的標準可能不一,需測試其判斷差異的規則,再依需求設定使用。倘若更新資料較少,亦可不定期備份變更,而於每次更新完成後進行備份,或視特定情境採用手動進行差異備份的方式。
三、 備份的頻率、保留之週期及保留時間
備份的頻率主要是隨著更新的頻率、異動需求的完整度要求來進行考量,若更新頻率低,備份頻率卻設定較高,會常有未更新卻需進行備份的狀況,造成備份空間或資源的浪費;相對的更新頻率高,但備份頻率卻設定太低時,若異動需求的完整度較高時,就會有中間更新版本遺漏的問題;而當資料不再異動時,也就應考量將資料移出持續動態備份的範疇中。
保留之週期通常關係著保留的份數,與需回顧多久之前的資料而定,若資料不會再更動,或無重新檢視的需求,僅需維持最新一份備份即可,因保留多份資料之主要目的,在於保存備份頻率之時間點上的資料狀況。多數的備份實作,其實僅需要備份最新的資料,以及回顧短時間的資料變更,所以通常會採取保留最後N份的方式進行。
保留之週期考量除了與前述資料回顧需求相關外,通常也與資料備份的空間有關聯,在備份資料時,有時無法當下判斷資料回顧的需求,但又不宜斷定沒有回顧的需求,因此通常會考量可利用的備份空間來設定保留之週期。
另外,若是需要回顧較長時間之前的資料,但備份的頻率又偏高,備份空間不足時,除了採用差異備份的方式外,亦可調整較舊資料的備份頻率,將一定時間之前的資料,另設定一個大於原本備份頻率的時間長度,以此時間長度為一個區段,僅保留區段內的最新備份,例如:備份頻率為每周一次,若需保留三個月(假定為12周)的資料,則會有12份備份,若設定一個月內的備份每次都保留,而一個月之前的資料,以一個月(4周)為時間長度,保留期間最新的備份,則最後會剩下最新一個月的4份備份,以及前兩個月,每月保留一份的最新備份(2份),總共是6份備份,採取隨時間越久而拉長備份頻率的方式,亦能有效的減少備份空間的浪費。
四、 備份位置
備份位置主要可分為「本機備份」、「異機備份」及「異地備份」三個不同的地點。
「本機備份」是將備份資料放在同一部電腦中,在備份及回復時較快速且方便,但若備份資料過多時,容易造成電腦在空間上的負擔,另一重大風險,即是本機硬體損毀時,可能造成原始資料及備份資料都無法取回的危險,因此本機備份雖然方便快速,卻通常不適合被拿來作為主要資料備份的方式。
「異機備份」主要是避免原始資料與備份資料同時損壞的風險,將備份資料存放在不同的機器上(可能為電腦或外接硬碟),另外有些資料的存放方式是搭配特有的系統設定,或與應用系統緊密結合的,這類的資料存放方式較難將資料、系統、系統設定完整抽離,且在回復時不僅步驟複雜,回復難度也高,為提升備份資料的可用性,及避免資料回復失敗的可能,通常會採用整機備份,將資料與系統設定(環境)、與系統合併進行備份,此時就較難使用本機備份,而用異機備份的方式來達成。
「異地備份」則是異機備份的延伸,除了避免原始資料與備份資料存放於同一部電腦的風險外,更進一步避免異機存放於同一地點的風險,利用各種媒體或其他方式,將備份資料攜至與原始資料有一定距離的位置存放即可,而異地的距離依需求各有不同的定義或規定,依據「行政院及所屬機關資訊安全管理規範」對資訊中心及機房安全的要求,必須在距離30公里以上場所建置資訊系統之異地備份,然而對一般使用者來說,進行30公里以上實體的異地備份並不方便,且不符合資料的效益及成本,對一般使用者來說,可定期進行資料備份並分別存放於家中及工作地點,算是已做到基本的異地備份。然而較容易被忽略的,反而是異地備份的安全性,雖然異地備份並非主要工作中的原始資料,但備份資料仍可能損及原始資料的價值,例如重要的研究數據或機敏資料,若是備份資料遭竊,也會造成研究成果或機敏性資料外流的損害,因此異地備份的資料,反而更需要關注其保存的安全性。
另外,近年相當熱門的雲端儲存服務(如:Google DriveASUS WebStorageDropbox等),亦是作為異地備份相當方便的工具,但多數人對於雲端的安全性,一直抱持保留的態度,事實上,就安全性而言,大部分具規模的雲端應用廠商,其機房及應用環境安全性,都高於一般IDC機房(Internet Data Center),然而相對來說,因為目標顯著,較容易遭受攻擊,一旦被攻擊成功,損失也遠比一般機房更大。當然雲端空間並非因此不適合做為異地備份的考量,因為安全性較高,被入侵的機率相對較低,且雲端應用廠商對於雲端環境及資料,皆有備份及備援,可靠性佳,建議可針對非機敏性的一般資料作備份,且加密後再上傳的話,更能保護資料的安全性,亦是建議應用於異地備份的一種方式。
五、 備份媒體
備份媒體由早期的打孔紙卡、磁帶、磁片到現今常用的硬碟、記憶卡、USB隨身碟、光碟等,隨著科技的進步,不斷的縮小體積並增加容量,以下就幾種常用的備份媒體,介紹其優缺點。
1.       光碟
目前常用的光碟格式有CDDVDBD三種,不但用於資料備份,也常應用於影音多媒體的領域, CD容量約為650MBDVD容量約為4.7GB17GB之間(單面單層及雙面雙層),BD容量約為25GB128GB之間(單層及四層)。單次寫入的光碟無法更改資料內容,故較適合備份不再變更之資料,因容量限制,若備份資料龐大又難以有效分類,需多片儲存的狀況下,尋找備份內容就顯得不方便。三種光碟格式皆有可抹寫的光碟片,但光碟抹寫常會受光碟品質問題所影響,與讀寫設備間的配合也偶有狀況發生,需多方測試設定及搭配光碟片,才能穩定使用,便利性不佳。另各家光碟片廠商皆表示光碟片可長久保存,但因實際使用及保存環境差異,光碟片損壞的狀況亦時有所聞。
2.       記憶卡
以固態電子快閃記憶體作為介質的儲存裝置,因其體積小且不怕震動的特性,多應用於手機、相機、筆記型電腦等移動式電子裝置,目前較常用被使用的是SD卡,記憶卡雖然體積小不受震動影響,但容易受極端的過冷過熱、或靜電影響,而造成損壞,在存取途中突然抽出,亦可能造成損毀,發生所有資料遺失無法救回的狀況。目前消費級SDXC記憶卡容量已達512G,但單位容量價格偏高也是作為備份媒體的一大限制。
3.       USB隨身碟
也是以固態電子快閃記憶體作為介質的儲存裝置,除了以USB為連接介面,且體積稍大外,其他特性與記憶卡相同,目前已可達到1TB的容量,雖單位容量價格略低於記憶卡,但若作為大容量存儲,價格仍偏高。


4.       硬碟
由非揮發性的磁片以及磁頭、馬達、晶片等組成之儲存裝置,亦是目前電腦中最常使用的儲存裝置,加上防震、防摔、散熱以及RAID技術的發展,使得硬碟的應用更加可靠,在備份應用方面,從攜帶式硬碟,至現今蓬勃發展的NAS及雲端軟硬體技術,亦成為目前備份的主流媒體。在個人使用上,單位容量價格與BD不相上下,但單位容量體積是小於光碟媒體的;與記憶卡或USB隨身碟相比,雖然單位容量體積偏大,但單位容量價格上有明顯的優勢。除了一開始的安裝較麻煩外,在大量資料存取的方便性上,硬碟是勝於光碟以及記憶卡、USB隨身碟的。
另外需要說明的是,關於備份媒體的使用,以及一些相關的技術與名詞的意義上,常有混淆的狀況,以下針對一些常用的名詞進行說明。
1)       RAID使用目的
常用的RAID技術,常被拿來稱作或作為所謂備份或備援,但實際上RAID真正的目的是容錯,如常用的RAID1是兩顆硬碟互作鏡像,在一顆硬碟損壞的狀況下,仍能正常讀取,雖達成某種程度上的備份或備援,但其主要的精神,是單顆硬碟實體硬體或磁區損壞時,仍可容忍某一程度上的錯誤持續使用,也就是說RAID1預防的是硬體的損壞,如果自行誤刪了檔案,那麼鏡像的結果,在另一顆硬碟上的檔案也會被刪除,也就無法達到一般需求的備份機制了;且若取出RAID1的其中一顆硬碟,在非原來的RAID設定環境下,這單顆硬碟是無法獨立使用的,除非這兩顆作RAID1的硬碟,儲存著由其他來源備份過來的原始資料,此時有兩份獨立可使用的資料,才可稱作所謂備份的機制。
2)       「備份」vs. 「備援」
「備份」與「備援」這兩個名詞,常會被混淆著使用,但所謂「備份」,是僅著重在資料本身的複製及獨立性;而「備援」則包含著資料、系統及執行環境等因素,備援機制的要求,乃是能夠在較短的時間內、較少的操作下,直接恢復原始環境,例如:網站的備援,通常與會建立在相同的硬體主機之中,主機內亦安裝與原始網站相同的軟體及進行相同的設定,若原始網路主機發生軟硬體的問題無法修復上線,備援主機便可直接替代原始網路主機上線服務;若僅是進行主機的「備份」,則是較能容許經過一段時間的重建再上線的緩衝期(重建過程包括重新採購硬體、建立環境、還原設定等等)。當然若將備份及備援的對象限縮至不依賴環境的單純資料時,備份與備援的機制會相當類似,但放大到執行或服務環境,就有很大的不同,所需投入的資源就有相當的差異。


六、 備份工具
備份工具亦是考量備份策略的其中一環,備份資料的性質,會影響備份工具的選擇與使用。一般常見的傳統關聯式資料庫備份,需透過資料庫管理介面設定匯出,或自行撰寫語法將資料抽出成為語法檔,或是以複製特定資料庫檔案或資料夾的方式來進行備份;若是一些特殊的文件儲存管理軟體,通常都會有其特有的資料匯出或備份的方式,不論是匯出檔案、另外建立伺服器、或以整個磁碟、磁片、光碟進行備份,都是可考量做為備份工具的一種方式。
然而特殊軟體的備份格式及方法,是否都能正確且完整的進行回復,皆需要進行完整的測試,在實作的經驗中,一些特殊軟體雖然本身皆有其備份與還原的功能,但在本機或異機的回復上,常會碰上一些限制、或是無法查明的原因,導致回復的失敗,若要進行備份,最後只能以映像檔整機備份的方式,才能完整的進行備份與還原。其實就如同一部執行多項服務的伺服器,若單獨將各項服務軟體進行備份,可能在時間的花費及設定操作上更加繁瑣,整機備份也就相對單純,這也是近年虛擬主機應用蓬勃發展的原因之一,因此,若是與軟體綁定的資料,進行整機磁碟的映象檔備份,亦是考量備份的其中一種方式。在整機的磁碟映像檔備份、或磁碟一對一複製工具中,「ghost」算是這個領域最常用的軟體,而由國家高速網路與計算機中心開發的「再生龍」也是值得推薦的工具。
相對於特殊軟體的備份,檔案形式的備份也就較為單純,若使用光碟備份時,則需要燒錄軟體;一般常執行的檔案複製備份,可以手動進行,若備份檔案較多且繁複,或有排程、差異備份的需求時,可借助一些軟體的輔助,像是:FreeFileSyncSymantec System Recovery 2013SyncBackAllway Sync等軟體,有些軟體亦可協助備份系統設定的郵件、圖片或文件等位置,可依不同的需求來選擇合適的軟體。另外若使用雲端備份,大部分雲端廠商亦會提供上傳及下載的軟體,或是同步電腦與雲端檔案的軟體,透過軟體的便利性與是否符合需求,也是備分工具的考量方式。
綜上所述,依資料的重要性、資料量、備份資料的可用性及回復速度等各項要求,將以上各項因素交叉考量,便可訂定適合需求的策略。例如資料重要性高的話,可能就需要考量同時進行多份備份的需求,甚至需要異地備份的方式來保障資料的完整;若是定期增加內容格式不同,且具時間區段意義的資料,就可以將一段期間內的資料批次備份保存,亦可同時考慮使用光碟、記憶卡等單一固定容量之媒體進行儲存,以區隔及管理不同時間區段的資料。各種資料狀況,皆有其適合的備份方式及策略,能夠符合其特有的情境。
然而執行備份策略,一定會有最後成本考量的問題,最直接可預估的,便是備份媒體及備份工具的花費,在這部分可能會有光碟、記憶卡、USB隨身碟等硬體的採購,或是硬碟與運作設備的花費,從簡單的連結線到外接盒、電腦主機或NAS主機等。而軟體工具部分,有免費的軟體也有付費軟體,若牽涉到不同備份媒體的部分,也可能有作業系統及與原始環境相同的第二套軟體的金額部分。接著考慮備份的位置及模式,在預算上可能就有所增減,若是在本地的機房,可能需要的空間維護就有可能有電路、網路的舖設;異地備份就須考量外部機房的主機租貸,或是雲端服務的租用價格,備份資料若較多時,備份媒體的經費或雲端服務租用的費用可能需要增加等。最後依備份的頻率、保留之週期甚至保留的年限來評估長期、定期的花費。當然經費通常是有限的狀況下,必然需要由上面這些考量的因素中縮減或轉換,例如:有異地備份的需求,但缺乏建置異地環境的經費,便可考量以較便宜的雲端空間取代;若完整備份太過消耗備份媒體空間,亦可考量差異備份,或是將資料區分出固定性及變動性的資料,採不同的備份頻率及保留週期來節省空間等,各種因素皆是可彈性調整的。
最後需要提醒的是在持續進行資料備份時,定期回頭審視備份資料是相當重要的,備份資料其價值之一是在於它的可回復性及可用性,然而系統及檔案在經過時間的變化後,版本可能更新、設定可能更改,也可能會有新增、刪減或合併軟體套件的可能性,因此定期進行備份測試及軟體功能測試,檢查資料的完整性、可用性,及與軟體的相容性,是在執行定期備份後,相當重要的一環,除了確保備份資料的有效性,亦檢查並驗證備份媒體及備份方式的可靠度。
參考資料:
資訊安全網(20163月)。備份及還原 步驟三選擇及建立備份策略。2016518日,取自:http://www.infosec.gov.hk/tc_chi/business/backup_step3.html
鳥哥(2009918日)。鳥哥的Linux私房菜 第二十五章、Linux備份策略。2016518日,取自:http://linux.vbird.org/linux_basic/0580backup.php

留言

這個網誌中的熱門文章

使用Python進行資料整理 – 初探Pandas

SAS、SPSS、STATA 統計軟體檔案格式轉換介紹

資料整理與檢誤經驗談—以SPSS程式進行邏輯檢查