首 页 关于我们 硕士期刊 职称期刊 期刊指南 合作期刊 客户须知 发表流程 指导流程 信用说明 支付方式 联系我们
工程硕士论文 当前位置:硕士论文网——全国十佳教育行业网站 >> 工程硕士论文 >> 浏览文章

 

 
随着互联网技术的不断发展,我们正处于一个信息爆炸式增长的时代。企业作为应用互联网技术最广泛的群体,其信息增长速度更是十分惊人。其中尤其以电子邮件和即时通讯消息为代表的半结构化数据和以各类电子文件为代表的非结构化数据的增长速度最快。而数据归档系统正是在这样的背景下诞生的。
 
随着信息技术、尤其是网络技术的快速发展,各企业的数据量正呈现出爆炸式增长。IDC研究表明,从2006年到2010年,全球信息总量增长了6倍以上,从161EB增加到988EB(1EB = 1024PB)[1]。2011年,全球被创建和被复制的数据总量更是高达1.8ZB(1ZB = 1024EB)。相较去年同期,这一数据上涨了超过1ZB。在这其中,尤以电子邮件、即时通讯、社交网络等为代表的非结构化数据增长最为迅猛。在这些大量数据中,除了一小部分活跃数据外,大部分都是过期数据。对于各个企业来说,这些数据占用了大量存储资源,减慢了系统运行效率,降低了数据检索效率,同时,使得系统运行不稳定和不安全性因素增加。但是,这些过期数据不能被轻易删除,因为这些数据并不是毫无价值的,如何存储及管理这些快速增长的海量数据已经成为一项重要的课题[2]
随着数据量的增长,存储成本也在迅速增加,如何使用有限的资金来存储正在飞速增长的数据,也成为企业信息管理部门的一个难题。美国著名信息技术咨询机构Gartner Group的报告显示,企业有78%的数据主要存储在主存储设备上,而主存储设备通常比辅助存储设备要贵很多[3]。在这78%的数据中,有很大一部分数据并不是经常被使用的活跃数据,如果能够将这些不活跃的数据迁移到更加廉价的存储设备上,一方面能够节约主存储设备的容量,降低在存储设备上的投资;另一方面也能减少业务系统中的数据规模,提高业务系统的性能,防止业务系统因为数据量太大而运行效率低下。
除了成本因素,来自企业内部和外部的管理需求,也增大了企业对归档系统的需求。这其中尤其以电子邮件归档最为重要。
对企业的内部管理来说,信息的安全性是十分重要的。如果说在IT应用的初始阶段,人们的着眼点主要在于现行业务的支撑,而疏于对数据尤其是历史数据的管理的话,那么随着信息系统中数据的累积、风险事故的发生,管理层开始意识到将电子文件归档,是实现内部控制的重要方法。曾经有案例显示,一名公司员工在离职时,将企业共享服务器上的文件全部都拷贝带走,这其中包含了公司近10年的所有文件,其实包含大量机密文件,使公司的大量商业秘密被泄露出去。如果对历史数据进行定期归档,并从共享服务器上将历史数据移除,这样在共享服务器上的文件数量就会大大减少,在发生类似事件时,就可以有效地减少被带走的文件数量,减少公司所蒙受的损失。
    来自企业外部的管理需求,主要体现在法律遵从性上。法规遵从性(compliance)是2002年之后世界范围内文件管理领域的一个最热门的关键词。起因源自2002年7月美国颁布的《萨班斯——奥克斯利法案》(Sarbanes-Oxley Act of 2002,SOX) [4]。SOX法案的应运而生,旨在加强企业监管,防止企业欺诈。这个法案十分强调对历史文件的归档。比如,其最重要条款之一404条款要求上市公司加强企业内部控制,并按照法案的规定来保存所有历史文件并维护其真实和可用。在面临法律纠纷时,企业有义务提供完整和真实的历史文件作为证据。如果上市公司不按照法案的规定保存文档,使得在需要这些文件作为证据时无法提供,或者在面对法律诉讼时不能主动提供这些文件作为证据,则将面临司法诉讼和高额的罚款,更有可能直接在法律诉讼中被判定败诉。世界著名投行摩根斯坦利就曾在2006年先后因为未按规定保存电子邮件和在面临诉讼时拒绝向法院提供相关电子邮件而分别被美国证交会和陪审团判定罚款165万美元和14.5亿美元。SOX法案彻底改变了企业对电子文档的和数据归档的态度,使得电子文档成为和纸质文档具有相同法律效力的可靠档案,去除了企业电子化道路上的重要障碍,成为影响现代企业业务流程的重要阶段。现在,在企业相关的民事诉讼中,有超过半数的证据是电子文件,平均每个官司都需要分析成千上万封电子邮件和用户文档。因此,SOX法案被美国前总统布什称为“自罗斯福总统以来美国商业界影响最为深远的改革法案”。在SOX法案的影响下,欧美各国也都分别出台了旨在要求机构保护历史文档的相关法案,例如,《健康保险流通与责任法案》(HIPAA)、《有关证券交易单位必须保存文件的规定》(SEC Rule 17a-4)等。而中国也在2010年出台了《企业内部控制基本规范》,对企业的内部控制提出了许多要求[3]
    数据归档系统通过将服务器上的历史数据移动到相对廉价的存储设备上,有效地降低了主服务器的存储压力,提高了服务器的性能,同时也有效地降低了信息存储的成本。通过对数据的有效组织和保护,确保了原始数据的完整性和可查性,为来自内部和外部的调查提供数据。成为了企业不可或缺的一项重要基础设施。
因此,对于存储在廉价的低级的存储设备上的历史数据的访问是必要的,虽然对历史数据的访问是件花费精力和麻烦的事情。[5]
下面介绍一些主要的归档方法:
1.     数据备份
    将需要归档的数据拷贝到磁带、磁盘或光盘中进行存放。这种做法是通过制造现有系统中的数据镜像,实现降低存储成本及在发生灾难时短时间内恢复数据,将灾难损失降低到最低的目的。严格意义上来说,数据备份不同于数据归档,因为虽然数据备份也实现了对历史数据的存储,但是并不能提供快捷的检索和访问能力。数据需要还原到原始服务器上才能被访问。因此一般只是被一些小企业使用,以降低经营成本。
2.     适合于中小企业的单服务器归档系统
    由一台独立的归档服务器定期从企业的应用服务器中获取数据,并存储到低级的存储设备中,并通过该服务器提供对这些归档数据的在线访问能力。多适用于历史数据规模不大的中小企业。
3.     适合于大企业的分布式归档系统
由多台服务器联合组成的归档系统,通过多台服务器的并行化运行,提供对大量数据的转存和访问功能。在功能上和单服务器的归档系统相近,但是其处理能力更强,能处理大量数据。适用于大型企业。
 
现有的数据归档系统大多采用了传统的C/S架构。系统主要由一台应用服务器,一台数据库服务器,一台或多台后端存储设备及客户端组成。其中应用服务器是系统的主体部分,主要负责从数据源处获取原始数据,将其压缩,建立索引并存储到后端的存储设备中。数据库服务器提供了数据库服务,用来存储一些用户信息及归档数据的信息。归档后的数据及索引文件都存储在后端的存储设备中,这些设备具备高容量及高可靠性等优点,保证存储的数据不会丢失。客户端安装在终端用户的电脑中,主要用来改善用户的归档使用体验,使其能够尽可能方便的访问归档数据,例如在用户访问已经被归档的邮件时自动将邮件加入邮件客户端等。同时,一些客户端还能够提供一些法律遵从方面的功能,帮助法律人员进行一些司法取证等操作。这样的架构拥有设计及维护简单的优点,使用简明的架构完成了大部分的归档功能。但是,随着数据量的不断增加,C/S架构中的单台服务器因为收到其运算能力的限制,很难继续满足企业用户每天庞大的数据流量。这时,传统C/S架构只能依靠将业务拆分,在公司内部署多套归档系统分别归档其一部分数据来勉强维持。但其缺点也十分明显,业务的拆分造成部署及维护的复杂度上升,归档数据因为分别属于不同的系统造成检索困难,继而影响电子发现的展开。所以这种架构正在被逐渐淘汰。
为了提高归档系统的整体吞吐量,人们开始采用一些分布式架构的归档系统,通过多台服务器的协同工作来提供系统的处理能力。但是,分布式的系统往往部署过程复杂,维护困难。由于每个节点不可能完全用尽其计算资源,造成系统资源浪费较多,从经济上和性能上都不甚理想。
这样的一套系统,需要台服务器,专人管理,对于一些中小企业来说,是不可承受之重。导致中小企业大多放弃使用归档系统,造成了一定的安全隐患。当企业逐渐壮大需要使用归档系统时,又因为之前的历史数据没有归档而使归档系统建立过程复杂,历史数据存在缺失等一系列问题。
 
云计算[6]是一种基于网络的计算模式。分布在世界各地的计算中心中的海量服务器将计算资源和存储资源以服务的形式提供出来,形成云。用户通过网络可以像平常使用家里的水和电一样使用这些服务,这样就算用户只拥有一台普通笔记本电脑,也可以通过接入云端的资源而获得强大的计算能力,完成复杂的计算工作。
云计算于2006年由Google提出[7],展现及规划了一个美丽的网络应用模式。随后亚马逊、微软、惠普、雅虎、英特尔、IBM等公司都陆续宣布了自己的“云计划”。云计算一词用来同时描述一个系统平台或者一种类型的应用程序。一个云计算的平台需要按需进行动态地部署、配置、重新配置以及取消服务等。建立在云计算平台上的服务器可以是物理服务器或者虚拟服务器。云计算平台利用虚拟机作为服务器可进行在线迁移实现虚拟机和物理资源的重映射,从而动态地实现整个系统的负载均衡,避免产生资源热点。在云计算模型的基本结构当中,核心部分是由多台计算机组成的服务器“云”。它将资源聚集起来,从而形成一个大的数据存储和处理中心。由服务器中的各种配置工具来支持“云”端的软件管理、数据收集和处理。服务器根据用户客户端提交的数据请求处理数据、返回检索结果。按照服务的分类,来实现监控和测量,保证服务的质量,合理地分配资源,达到资源效益的最大化。最终,实现海量数据的存储和超级计算能力。
 
    论文首先针对现有的信息归档系统所存在的问题,决定了基于云计算的企业信息归档系统的定位,即充分利用云计算平台资源利用的高效能的特点,构建基于云计算的信息归档服务,可以进一步降低归档系统的运行成本,提高运行效率,使更多企业可以使用。
    然后详细阐述了基于云计算的归档系统的关键技术,系统的体系结构及详细设计,并开展了实验和部署。
最后,总结了基于云计算的归档系统的优点及不足,展望和探讨了未来的进一步的改进的方向及优化思路。
 
    本文共分五章,首先简要介绍了论文的背景情况,引出了本文所作的主要工作内容。然后简单介绍了现有的信息归档系统的现状和所存在的问题。在此基础上,详细分析基于云计算的企业信息归档系统的需求,并对系统的实现进行了详细的分析。最后分析了系统不足之处,提出了改进的方案。文章的内容具体安排如下:
    第一章介绍了企业信息归档发展的现状,分析了现有的信息归档系统存在的问题,决定了基于云计算的企业信息归档系统的开发重点,突出了本文的现实意义。
    第二章介绍了基于云计算的企业信息归档系统的主要技术和方法,这是构建整个基于云计算的企业信息归档系统的技术基础。
    第三章在第二章的基础上,先对基于云计算的企业信息归档系统的定位进行了研究,然后对系统的核心功能和流程进行了详细的分析。在需求的基础上给出了基于Hadoop平台的系统的整体架构设计,为系统的开发指明了方向。
    第四章是论文的主要部分。首先,详细说明了系统会使用的一些数据结构,然后分析了数据库的设计及优化,具体分析了系统中各个主要模块的详细设计及具体的实现方法,最后,阐述了如何利用云平台的特点来有效地利用计算资源和相关的实验信息。
    第五章对基于云计算的企业信息归档系统的特点做一个总结,罗列了基于云计算的系统的优势,并对现有系统的不足之处提出了改进方案,最后指出了系统的进一步发展的方向及要点。
 
 
联系我们  
联系电话:400-850-4642
张老师7951062
程老师89059077
张老师
程老师
       工作时间: 08:00-24:00
发表流程  

A、客户填写表单:姓名、通讯地址、邮编、电话、手机、邮箱、QQ、见刊时间、文章题目、学科、刊类要求、投稿需求 (评职称、非职称)、其他备注、文章上传。
B、和客服人员确定刊物、时间、费用
C、客户投稿淘宝拍下,交由我们审稿通过即可进行下一步。
D、通过(如未通过,则再投再审)
E、审稿通过,通知客户
F、发给客户用稿通知,客户查稿。
G、客户淘宝确认收货版面费用
H、刊物发行给作者,并邮寄刊物
I、文章发布,服务结束
附注: 安全保证

[点击更多]
关于我们 博士论文发表 职称论文发表  MBA论文  合作期刊  客户须知  论文指南  发表流程 指导流程 信用说明  联系我们

CopyRight © 2014 硕博论文网 All Rights Reserved.
部分资料源于网上的共享资源及期刊共享,请特别注意勿做其他非法用途如有侵犯您的版权或其他有损您利益的行为,请联系指出,论文网会立即进行改正或删除有关内 容