監(jiān)理公司管理系統 | 工程企業(yè)管理系統 | OA系統 | ERP系統 | 造價咨詢管理系統 | 工程設計管理系統 | 甲方項目管理系統 | 簽約案例 | 客戶案例 | 在線試用
X 關閉
南昌OA系統
聯系方式

成都公司:成都市成華區(qū)建設南路160號1層9號

重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務大廈18樓

咨詢:400-8352-114

加微信,免費獲取試用系統

QQ在線咨詢

非結構化數據的歸檔術

申請免費試用、咨詢電話:400-8352-114

朱立谷

 

固定內容都是非結構化或半結構化的數據。與交易數據(數據庫)相比,固定內容的數量增長速度更快,管理難度也更大。調查顯示,全球數據量的75%都是固定內容數據,針對非結構化數據的歸檔成了當務之急。

文件存儲與搜索技術的現狀

非結構化數據的分類

文件存儲的現狀

一些國家的法規(guī)對固定內容的歸檔存儲提出了嚴格要求。例如,2002年7月25日,美國頒布了《薩班斯-奧克斯萊法案》。該法案敦促企業(yè)必須建立正確的IT基礎架構,選擇適當的電子文檔存儲技術以便實現法規(guī)遵從。

在傳統的網絡存儲和文件系統中存儲的是二進制流文件,不允許對固定內容對象建立更豐富的數據模型,因此,在傳統的文件系統中要找到需要的內容非常困難。可見,用戶面臨的挑戰(zhàn)從數據存儲變成了數據管理,幫助用戶迅速找到需要的信息成為存儲系統的一個新的功能需求。

為了實現對數量龐大的數字內容進行高效的存儲與搜索,學術界和企業(yè)界從網絡存儲架構和文件搜索技術兩個方面進行了大量研究。

網絡存儲架構的研究

由于基于塊(SAN)和文件(NAS)的網絡存儲不能同時滿足高性能和數據共享的需求,對象存儲的概念應運而生。對象存儲能有效結合SAN和NAS系統的優(yōu)點,通過數據和元數據的分離簡化管理,還可直接訪問磁盤,以提高性能,同時滿足高性能和數據共享的需求。在面向對象的存儲系統研究和開發(fā)中,有兩個分支引起了學術界和企業(yè)界的廣泛關注。其中一個分支是智能存儲,如NASD、LUSTRE等,另一個分支則是基于內容的存儲,如內容尋址存儲 (Content Addressable Storage,CAS)。

在CAS中,傳統的文件名被一個根據文件內容通過某種特定算法計算出來的字符串所取代。它是一個表征該數據對象的全局惟一的數字標識符,或稱為數字指紋。一種常用的方法是根據數據內容計算出固定長度的Hash來代替文件名。CAS維持一個描述組成原數據對象的各個數據塊的數字標識符清單,為具體應用提供可用的CAS數據塊,以重組原數據對象。對于網絡存儲系統的客戶端而言,只需使用這一數字標識符來實現對內容的存取。

由于CAS采用的是基于對象的接口,因此在數據對象的存儲過程中,它既可以達到塊接口的速度和效率,又在數據對象共享和管理中具有文件接口的便利。因此,對于固定內容數據的存儲,CAS具有很高的性能。

CAS將應用和內容的物理位置完全隔離,可以自動檢測數據對象的變化,實時保護數據對象不被惡意修改,維持數據對象的完整性。同時,數據對象的數字指紋是從內容得到的全球惟一的ID,可以用于WORM和內容認證。

除此之外,CAS技術提供了單一實例存儲,可消除數據冗余,提高存儲空間利用率。由于相同內容的數據對象的數字指紋是一致的,因此在同一CAS系統中,相同內容的文件只允許存在非策略性的一個存儲實例。

CAS技術的上述特點使之在文件歸檔和法規(guī)遵從等領域擁有獨特的優(yōu)勢,特別適合長久保存非結構和半結構化數據。

業(yè)界知名的基于內容的存儲原型系統包括貝爾實驗室開發(fā)的Venti網絡存儲系統、加利福尼亞大學研究開發(fā)的 Deep Store歸檔存儲系統,以及Intel等開發(fā)的CASPER分布式文件系統。

基于內容的存儲系統也有很多,比如EMC推出的業(yè)界第一款CAS產品——Centera、Permabit公司推出的軟件CAS產品——Permeon Reference Vault等。HDS、HP、IBM、Nexsan、Sun等廠商和許多初創(chuàng)公司也相繼推出了CAS產品。

目前,主要的CAS產品使用API來實現存儲,因此必須在API基礎上開發(fā)應用程序,或者依靠內容管理系統與其他產品進行集成才能使用,但這樣的集成系統往往是昂貴而低效的。2006年,ESG的一份研究報告稱,讓存儲系統具有搜索功能是CAS技術發(fā)展的必由之路。

文件搜索技術的研究

在過去10多年中,文件系統技術并沒有大的變革,而新數據類型(如電子郵件、多媒體)不斷出現,包括了豐富的元數據。傳統的文件系統是基于目錄和文件的層次型結構,沒有給予元數據信息足夠重要的位置,對于存儲在文件系統中的數據都缺乏語義支持,因此不能提供高層的、基于語義的關聯式數據存取。認識到現有的文件系統的不足,學術界和企業(yè)界做了大量工作,研究如何提高文件的搜索和獲取效率,主要方向包括通過擴展文件系統的元數據屬性構建新型文件系統,以及利用文件的元數據信息進行文件瀏覽與搜索。

名詞解釋:固定內容

固定內容(Fixed Content)就是自創(chuàng)建以后不再更改,并具有長時間保存價值的數據對象,如辦公文檔、電子郵件、電視新聞、醫(yī)療圖片等。固定內容包含了與企業(yè)業(yè)務相關的內容和可為企業(yè)提供價值的信息,因此也稱為參考數據(Reference Data)。

鏈 接:語義文件系統

語義文件系統通過增加文件屬性的數量,使文件系統包含更多的元數據,進而利用這些元數據信息提供更豐富的功能。語義文件系統利用元數據抽取工具獲取更多的元數據,記錄用戶活動,并采用手工或其他方法對文件進行標注,最后將這些信息結合起來形成統一元數據,并通過元數據信息在非結構化文件和數據庫數據之間建立起鏈接。

語義文件系統是實現虛擬文件系統的一個有效途徑,如Microsoft的WinFS和Apple公司的Spotlight虛擬文件夾。虛擬文件夾可采用XML格式的文本文件表示,內容是對數據庫進行查詢后返回的結果組成的列表,包含了指向符合某種規(guī)則的文件或文件夾的鏈接。

語義文件系統可對文件進行高效的分類,如Linux平臺下基于用戶空間文件系統(Filesystem in Userspace)的TagFS采用智能標簽(Smart Tagging)機制,動態(tài)地讓數據文件具備特定的標簽,加了標簽的數據文件的呈現能依據用戶的偏好與意圖分類,并依據權重排序后呈現。

語義文件系統便于用戶對數據文件進行高效的搜索。目前,將語義文件系統和各種桌面應用相結合成為業(yè)界的研究熱點,也就是桌面搜索。

內容存儲思想的提出

面向內容存儲的技術與應用

CAS存儲系統的功能單一,不能提供可直接使用的文件對象瀏覽和搜索功能,雖然可以滿足文件歸檔和留存的需求,但不能滿足電子發(fā)現的需求。文件搜索有很好的文件搜索功能,能夠滿足電子發(fā)現的需求,但不提供數據組織和管理功能,不能滿足長期留存的需求。這個局限是由于目前的研究將數據存儲與數據管理技術完全隔離開造成的,實際上違背了用戶的需求。將數據存儲和數據管理技術進行綜合研究具有巨大的應用價值,CAS和文件搜索的融合可以為企業(yè)文件歸檔和電子發(fā)現提供可行的技術方法。

通過對面向內容存儲的技術的研究發(fā)現,存儲技術與數據管理技術存在一個融合規(guī)則,即CAS與元數據(數據管理)的融合就是對象存儲,對象存儲與內容管理的融合屬于信息存儲范疇,而信息存儲與知識管理的技術融合就是內容存儲。

內容存儲涉及廣泛的技術領域,包括對象存儲、內容管理、元數據、語義Web,同時內容存儲具有廣闊的應用空間,如數據分類、信息發(fā)表、內容檢索等??梢赃@樣認為,將語義Web技術和文件搜索引擎技術應用于內容存儲,特別是將語義Web和信息存儲中的核心技術進行融合必定會取得良好的效果。

內容存儲

傳統的存儲系統是追求高性能而不是數據保留的長久性,是在塊中分布數據而不是使空間效率最大化,是為了讀寫數據而不是永久地保存數據,并且只提供了一些安全措施,沒有堅實的抗毀性。

固定內容的存儲需要具有區(qū)別于文件系統的特性,即可以極大地降低存儲成本,具有不可改變的特性(一次寫入,多次讀取),可以動態(tài)擴展,提高可靠性。固定內容的存儲比磁帶系統具有更小的延時,還有通用接口、搜索能力(尤其是在PB級存儲系統中)。使用固定內容的存儲,幾十年或幾百年后對資料進行讀取都可以像現在對本地或分布系統的讀取一樣方便。固定內容數據必須被長期保存,以便今后檢索,保存的時間可能會超過存儲硬件的預計壽命,甚至可能超過存儲軟件系統和其接口的使用壽命。

文件系統依賴于基于位置-數據映射的方法來尋址數據(居留于文件系統中的文件),數據隨時可以修改。文件系統的數據定位方法(如文件名)可能是非常復雜和脆弱的。固定內容存儲使用存取標記機制來進行對象尋址,只要客戶應用程序用一個記號和數據(數據庫記錄)關聯起來,擁有適當的存取權限的應用服務器或客戶端就可以從任何地理位置獲取數據。當一個客戶端發(fā)出請求,CAS產生一個全球惟一的標識(存取標記),稍后可以用來獲取對象??蛻粼诙ㄎ粚ο髸r不必擔心掛載點、路徑或操作系統文件名的限制。應用(客戶端或服務器)只需要提交一個標記,CAS服務器就將對象返回。

通過從網絡類型、接口類型、尋址方法和關鍵特性等幾個方面與NAS和SAN對比可以發(fā)現,CAS特別適合于固定內容的存儲需要。

CAS是一種對象存儲系統。CAS中數據存儲的基本單元是對象。與常規(guī)存儲系統中所使用的文件或塊不同,對象包括文件數據加上定義數據的不同方面的屬性。這些屬性可以是在一個文件的基礎上定義的元數據和服務質量。與通常的塊存儲不同,對象存儲系統必須跟蹤系統中每個塊的所有屬性。這簡化了存儲系統的任務,并通過將數據的管理與數據自身一起存儲,從而增加了存儲系統的靈活性。

CAS解決了傳統的基于文件名存取數據的一些缺點。例如,它可以識別兩個文件名不同但是內容完全相同的文件,可以避免相同數據的多次存儲,從而節(jié)省大量的空間。另外,CAS還具有高可管理性、高可用性和安全性好等優(yōu)勢。

內容管理

相對于存儲在關系數據庫中的結構化數據而言,內容管理的對象是以各類非結構化數據為主的數字內容,包括企業(yè)的各種文檔、報表、賬單、網頁、圖片、傳真、掃描影像,以及大量多媒體的音頻、視頻信息等。與業(yè)務信息系統中大量用于交易記錄、流程控制和統計分析的數據相比,固定內容具有某種特定和持續(xù)的價值,這種價值在共享、檢索、分析等使用過程中得以產生和放大,并最終對企業(yè)的業(yè)務和戰(zhàn)略產生影響。

內容管理的目標是,實現對各種環(huán)境下以各類非結構化和半結構化數據為主的內容的綜合管理,提供內容采集、創(chuàng)建、加工、存儲、傳遞、組織、服務和反饋等內容全生命周期過程中所需的各項功能,以及元數據管理、智能檢索和分析、數字版權和內容安全等專項技術,使內容得到高效利用和增值,給內容所有者和消費者帶來效益。

內容存儲與內容管理的結合

存儲與內容管理結合的方式

固定內容存儲和企業(yè)內容管理擁有完全相同的對象,即非結構化數據,兩者必定能夠建立起某種聯系。

在EMC Centera中,應用程序不再使用傳統的文件訪問或塊訪問接口,要求應用程序必須進行修改,以使用新的API來實現存儲。EMC開放了Centera的API接口,以吸引獨立軟件開發(fā)商在其API基礎上開發(fā)應用程序,或對原有的應用進行移植。目前,許多廠家的內容管理系統通過與Centera系統結合實現了具體的應用,如電子郵件歸檔系統、醫(yī)療圖像歸檔與管理系統、文檔歸檔與內容管理系統等。

Permabit公司的CAS產品——Compliance Vault提供了更多能夠滿足法規(guī)遵從的功能和特性。Compliance Vault軟件能夠被安裝在任何符合Intel標準架構的服務器上,并兼容來自不同廠商(Dell、HP和IBM)的存儲設備。每一臺安裝了 Compliance Vault軟件的服務器都將成為Permabit Permeon存儲解決方案中的存儲節(jié)點。Compliance Vault為外部應用提供了標準的CIFS/NFS API,可與大多數內容管理產品協同合作。但是,Compliance Vault本身并沒有提供搜索和容量報告功能,這些功能必須由Permabit的合作伙伴來實現。

目前,CAS產品不能提供一個完整的固定內容存儲解決方案,必須依靠與其他產品進行集成才能應用。不但如此,CAS產品本身還十分昂貴。美國PRIAA工業(yè)協會的報告指出,1臺EMC的Centera的價格為10萬~20萬美元;Archivias聲稱其ArC(2004年4月推出)的價格為Centera的一半;而Sun的IntelliStore(2005年6月推出)最低配置(4TB)的價格為7.5萬美元。據此計算,這些CAS產品加上其他配套軟硬件組成的固定內容存儲解決方案最少要花費數百萬元,這顯然是中小型企業(yè)難以負擔的。

用戶希望存儲廠商根據用戶的實際應用量身定制存儲與管理統一的服務系統,而不是提供許多單一功能的產品,然后組合成一個昂貴而低效的集成系統。

如果充分利用固定數據對象中的元數據作為橋梁,便可以將內容管理技術和CAS技術結合起來,將目前CAS和內容管理集成的固定內容存儲管理方案變成對外提供存儲和管理統一服務的一體化解決方案。因此,中國傳媒大學計算機學院推出了一種新的基于內容管理的存儲系統平臺,稱為CAStor內容存儲-管理系統,將CAS存儲與內容管理結合在一起。

傳統的存儲系統包括DAS、NAS和SAN,它們基于文件系統尋址存儲系統中的數據,并進行數據管理,因此不具有固定內容存儲需要的特性。CAS內容尋址存儲系統將數據分級、元數據技術、高速索引和搜索技術集成到存儲系統中,便于和內容管理軟件進行集成,構成固定內容存儲方案。CAStor內容存儲-管理系統是一種純軟件的存儲系統架構,適合于各種開放的PC服務器和磁盤陣列,采用內容尋址技術,可為企業(yè)提供集存儲服務、內容管理、內容服務于一體的系統平臺。

發(fā)布:2025-12-17 15:44    編輯:泛普軟件 · xiaona    [打印此頁]    [關閉]