基于Hadoop的校园云存储系统的研究

来源：99网

２０１２年８月　陕西理工学院学报（自然科学版）　Ｊｏｕｒｎａｌ　ｏｆ　Ｓｈａａｎｘｉ　Ｕｎｉｖｅｒｓｉｔｙ　ｏｆ　Ｔｅｃｈｎｏｌｏｇｙ（Ｎａｔｕｒａｌ　Ｓｃｉｅｎｃｅ　Ｅｄｉｔｉｏｎ）　Ａｕｇ．２０１２　第２８卷第４期　Ｖ０１．２８　Ｎｏ．４　［文章编号］１６７３—２９４４（２０１２）０４—００３０—０６　基于Ｈａｄｏｏｐ的校园云存储系统的研究　高新成　，　王莉利　（１．东北石油大学现代教育技术中心，黑龙江大庆１６３３１８；　２．东北石油大学计算机与信息技术学院，黑龙江大庆１６３３１８）　［摘要］　针对海量数据的存储问题，传统方法一般是通过购置更多数量的服务器来提升计　算和存储能力，存在硬件成本高，存储效率低等缺点。通过对Ｈａｄｏｏｐ框架和ＭａｐＲｅｄｕｃｅ编程　模型等云计算核心技术的分析和研究，提出了一种基于Ｈａｄｏｏｐ框架的海量数据存储模型，并　在此模型的基础上，设计并实现了基于Ｈａｄｏｏｐ的校园云存储系统。经过实验验证，该系统有　效地解决了在校园办公、教学和科研过程中遇到的海量数据存储管理问题，具有开发成本低、　处理速度较快、运行稳定、易于扩展等特点。　［关键词］Ｈａｄｏｏｐ；　ＭａｐＲｅｄｕｃｅ；　云计算；　分布式计算；　存储模型　［文献标识码］　Ａ　［中图分类号］　ＦＰ３９３．０７１　随着计算机网络技术的快速发展，高校对信息化的要求越来越高，需要处理的数据量也不断增大。　如何存储和管理在教学和科研过程中遇到的海量数据，成为一个研究热点。云计算是一种基于因特网　的超级计算模式，它把计算任务分配给大量计算机构成的资源池ｔ，能够使应用系统根据需求获得相应　的计算能力、存储窄问和软件服务。本文在云计算核心技术Ｈａｄｏｏｐ　架构基础上，设计并实现了校园　海量数据存储系统。该系统的服务器使用Ｌｉｎｕｘ操作系统，采用ＭａｐＲｅｄｕｃｅ编程算法实现并行处理，不　仅町以满足埘海量数据快速处理的要求，而且对硬件配置要求不高，可以充分利用现有的硬件资源。　ｌ相关技术介绍　１．１　ＨＤＦＳ系统架构　ＨＤＦＳ【２，３ｉ（Ｈａｄｏｏｐ　Ｄｉｓｔｒｉｂｕｔｅｄ　Ｆｉｌｅ　Ｓｙｓｔｅｍ）是一个运行在普通硬件之上的分布式文件系统。ＨＤＦＳ　系统采用Ｍａｓｔｅｒ／Ｓｌａｖｅ　框架，一个ＨＤＦＳ集群系统是由一个Ｍａｓｔｅｒ和多个Ｓｌａｖｅ构成。前者叫做名字　节点（ＮａｍｅＮｏｄｅ），是一个中心服务器负责元数据的管理工作，主要包括文件系统的名字空间管理和客　户机对文件的访问操作。后者叫做数据节点（ＤａｔａＮｏｄｅ），在集群系统中一般一个节点是由一个ＤａｔａＮ—　ｏｄｅ构成的，主要负责对节点上它们附带的存储进行管理。　ＨＤＦＳ系统中文件的目录结构存储在ＮａｍｅＮｏｄｅ上，对于具体的文件数据来说，一个文件数据　其实被拆分成若干Ｂｌｏｃｋ，这些Ｂｌｏｃｋ冗余存储在ＤａｔａＮｏｄｅ集合数据里。ＮａｍｅＮｏｄｅ负责执行文件系统　的Ｎａｍｅｓｐａｃｅ管理１　作，主要包括关闭、打开和重命名数据文件和目录等操作，同时负责建立Ｂｌｏｃｋ和　ＤａｔａＮｏｄｅ节点的映射关系。客户机的读写需求是由ＤａｔａＮｏｄｅ节点响应完成的，同时ＤａｔａＮｏｄｅ节点在　收稿日期：２０１２－０５—１６　基金项目：黑龙江省留学　国科学研究基金资助项目（ＬＣ２００９Ｃ１　１）　作者简介：高新成（１９７９一），男，黑龙江省木兰县人，东北石油大学讲师，博士生，主要研究方向为云计算、分布式计算；王　莉利（１９７９　），女，黑龙江省大庆市人，东北石油大学讲师，＝Ｅ要研究方向为计算机网络通信。　第４期　高新成，王莉利　基于Ｈａｄｏｏｐ的校园云存储系统的研究　ＮａｍｅＮｏｄｅ的统一指挥下进行Ｂｌｏｃｋ的创建、删除和复制等操作。　１．２　ＭａｐＲｅｄｕｃｅ编程模型　ＭａｐＲｅｄｕｃｅ　是一种编程模型，是云计算的核心计算模式，用于大规模数据集的并行运算。Ｍａ—　ｐＲｅｄｕｃｅ借用了函数式编程的思想，把海量数据集的常见操作抽象为Ｍａｐ（映射）和Ｒｅｄｕｃｅ（化简）两种　集合操作，大大简化了程序员编写分布式并行计算程序的难度。ＭａｐＲｅｄｕｃｅ数据处理流程如图１所示。　输入　Ｍａｐ任务　Ｒｅｄｕｃｅ任务　输出　图１　ＭａｐＲｅｄｕｃｅ数据处理流程　通过Ｍａｐ函数将被分割后数据映射成不同的区块，然后由计算机集群对分配的数据进行分布式运　算处理，再由Ｒｅｄｕｃｅ函数对数据结果进行统一汇整，最后输出用户所想要的数据结果。ＭａｐＲｅｄｕｃｅ的　软件实现是指定一个Ｍａｐ函数，用来把一组键值对映射成一组新的键值对，指定并发的Ｒｅｄｕｃｅ（化简）　函数，用来保证所有映射的键值对中的每一个共享相同的键组。　１．３基于Ｈａｄｏｏｐ的海量数据存储模型　通过对云计算的分布式、并行计算和存储等技术的研究，本文提出了新的基于Ｈａｄｏｏｐ的海量数据　存储模型，如图２所示。　从图２中可以看出Ｍａｓｔｅｒ包括ＮａｍｅＮｏ—　ｄｅ和ＪｏｂＴｒａｃｋｅｒ，Ｓｌａｖｅｓ包括ＤａｔａＮｏｄｅｓ和　ＴａｓｋＴｒａｃｋｅｒｓ。ＨＤＦＳ的工作主要由ＮａｍｅＮｏｄｅ　和ＤａｔａＮｏｄｅｓ共同完成，ＭａｐＲｅｄｕｃｅ的工作主　要由ＪｏｂＴｒａｃｋｅｒ和ＴａｓｋＴｒａｃｋｅｒｓ共同完成。　模型工作流程：服务控制集群ＳＣＣ（Ｓｅｒｖ—　ｉｃｅ　Ｃｏｎｔｒｏｌｌｅｒ　Ｃｌｕｓｔｅｒ）主要负责对用户应用请　求进行接收，并根据用户的请求完成应答工　作。存储节点集群ＳＮＣ（Ｓｔｏｒａｇｅ　Ｎｏｄｅ　Ｃｌｕｓｔｅｒ）　主要负责处理数据资源的存取工作。Ｊｏｂ—　Ｔｒａｃｋｅｒ可以运行在集群系统中的每一台计算　机上，主要完成管理和调度其它计算机上的　————　控制流　…◆　数据流　图２基于Ｈａｄｏｏｐ的海量数据存储模型　ＴａｓｋＴｒａｃｋｅｒ。不同的是ＴａｓｋＴｒａｃｋｅｒ必须运行在数据存储节点的ＤａｔａＮｏｄｅ上，主要完成执行任务工作。　ＪｏｂＴｒａｃｋｅｒ负责将每一个Ｍａｐ和Ｒｅｄｕｃｅ任务分配给空闲的ＴａｓｋＴｒａｃｋｅｒ处理，完成对每个数据文件并行　计算处理任务，同时对每个任务运行完成的情况进行监控。当其中一个ＴａｓｋＴｒａｃｋｅｒ发生故障时，Ｊｏｂ—　Ｔｒａｃｋｅｒ会主动将其负责的任务转交给另外一个空闲的ＴａｓｋＴｒａｃｋｅｒ重新执行完成这个任务。用户本身　不直接通过Ｈａｄｏｏｐ架构进行读写数据，这样可以避免大量的读写操作造成的系统拥塞。当用户通过　Ｈａｄｏｏｐ架构把信息传给ＳＣＣ后，将直接与存储节点进行交互，同时完成数据读取操作。　２校园海量数据存储系统的设计与实现　针对校园网中对海量数据处理的业务需求特点，在Ｈａｄｏｏｐ框架的基础上，运用ＭａｐＲｅｄｕｃｅ编程模　・３１．　陕西理工学院学报（自然科学版）　第２８卷　式，设计并实现了校园云存储系统。　２．１系统结构设计　系统由四部分构成，分别为用户层、系统管理　层、数据存储层和基础设施层，系统架构模型如图３　所示。　客户端　　『浏览器　Ｉ　用户层　用户层，即客户端浏览器。用户通过客户端向　　｝用户管理　目录管理　资源管理　ｌ　系统管理层　系统发出请求，系统把信息返回给客户端。　系统管理层，负责应用程序与底层数据操作连　接，把用户需要的数据结果传回客户端。主要提供　用户管理、目录管理、资源管理等服务。　Ｈａｄｏｏｐ管理　【（ＭａｐＲｅｄｕｃｅ＋ＨＤＦＳ）　ｌ　数据存储层　硬盘　数据存储层，Ｈａｄｏｏｐ集群工作在这一层，由　ＨＤＦＳ和ＭａｐＲｅｄｕｃｅ构成，负责数据管理与分配任　　ｌ服务器　基础设施层　务，为系统提供分布式计算和存储。　基础设施层，即硬件基础设施，主要包括磁盘、服务器等。　２．２系统功能设计　图３　系统架构模型　本系统旨在为学校提供一个解决海量数据存储的管理平台。考虑到学校有多个职能部门，不同部　门使用的数据一般不同，为了更好地对数据进行分类管理，按照部门的职能进行了子用户的划分。系统　设计包括子用户管理、普通用户管理、管理员管理和平台管理四个功能模块，如图４所示。　校园云存储系统　子用户模块　普通用户模块　．　管理员模块　１　平台管理模块　＿Ｌ－　＿Ｌ＿　上　上　上　』［　上　＿Ｌ　＿Ｌ＿　＿Ｊ－　用　创　查　文　文　文　修　子　普　查　管　服　故　报　户　建　看　件　件　件　改　用　通　理　务　障　警　登　目　目　上　下　删　密　户　用　看　管　户　目　员　器　管　管　录　录　录　传　载　除　码　管　登　管　理　理　录　录　理　理　理　图４校园云存储系统功能模块划分　子用户功能：包括创建、查看目录，上传、下载和删除自己的数据文件，修改密码等功能。　普通用户功能：包括创建、查看目录　卜传、下载和删除数据文件，创建和控制子用户等功能。只有　普通用户关联和激活了子用户，子用户才能可用。　管理员功能：包括浏览系统目录文件，对普通用户、子用户的创建、修改和删除等功能。只有关联和　激活用户后，用户才能可用。　平台管理功能：包括服务器信息管理，故障监控和报警管理。为服务器管理提供友好的ｕＩ接口，监　控系统运行中出现的故障，通过手机短信方式报警，及时发现故障、处理故障、记录故障，以便查询。　２．３系统具体实现　２．３．１　系统集群部署　系统采用Ｈａｄｏｏｐ　０．２１．０版本软件，７台Ｐｃ机操作系统为ＣｅｎｔＯＳ５，ＰＣ机的机器名和角色如下：　Ｍａｓｔｅｒ　１７２．１６．１．１　ｍａｓｔｅｒ；　ｎａｍｅｎｏｄｅ　Ｓｌａｖｅ２－６　１７２．１６．１．２－７　ｓｌａｖｅ；ｄａｔａｎｏｄｅ　Ｍａｓｔｅｒ为集群主节点（ｎａｍｅｎｏｄｅ），其余机器为从节点（ｄａｔａｎｏｄｅ）。　・３２・　第４期　高新成，王莉利　基于Ｈａｄｏｏｐ的校园云存储系统的研究　集群部署步骤：　（１）集群配置ＳＳＨ，实现机器间免密码登陆，操作命令：　￥ｓｓｈ—ｋｅｙｇｅｎ－ｔ　ｒｓａ　￥ｃｐ　ｉｄ＿ｒｓａ．ｐｕｂ　ａｕｔｈｏｒｉｚｅｄ—ｋｅｙｓ　￥ｓｓｈ—ｃｏｐｙ—ｉｄ－ｉ￥ＨＯＭＥ／．ｓｓｈ／ｉｄ—ｒｓａ．ｐｕｂ　ｕｓｅｒｎａｍｅ＠ｓｌａｖｅ　在每台机器上生成ｓｓｈ密钥，然后交换公钥，将ｎａｍｅｎｏｄｅ的公钥拷贝到每台ｄａｔａｎｏｄｅ，这样互相访　问就不需要密码了。　（２）在每台机器上安装ＪＤＫ１．６，配置Ｊａｖａ环境。　（３）安装配置ｈａｄｏｏｐ步骤：　①配置ｈａｄｏｏｐ—ｅｎｖ．ｓｈ文件，设置ＨＡＤＯＯＰ—ＨＯＭＥ与ＪＡＶＡ—ＨＯＭＥ变量，具体如下：　ｅｘｐｏａ　ＨＡＤＯＯＰ—ＨＯＭＥ＝／ｕｓｒ／ｌｏｃａｌ／ｈａｄｏｏｐ／ｈａｄｏｏｐ－０．２１．０　ｅｘｐｏ￣ＪＡＶＡ—ＨＯＭＥ＝／ｕｓｒ／ｊａｖａ／ｊｄｋ１．６．０＿２２／　②分别配置ｍａｐｒｅｄ—ｓｉｔｅ．ｘｍｌ、ｈｄｆｓ・ｓｉｔｅ．ｘｍｌ、ｃｏｒｅ—ｓｉｔｅ．ｘｍｌ文件；　③配置ｓｌａｖｅｓ文件，加入所有ｄａｔａｎｏｄｅ的ＩＰ地址ｓｌａｖｅ；　④配置ｍａｓｔｅｒｓ文件，加人ｎａｍｅｎｏｄｅ的ＩＰ地址ｍａｓｔｅｒ；　⑤将ｎａｍｅｎｏｄｅ配置好ｈａｄｏｏｐ所在文件夹ｈａｄｏｏｐ－０．２１．０复制到每个ｄａｔａｎｏｄｅ对应的目录下。　（４）启动ｈａｄｏｏｐ服务。在ｎａｍｅｎｏｄｅ的ｈａｄｏｏｐ－０．２１．Ｏ／ｂｉｎ目录下，执行命令：　￥ｈａｄｏｏｐ　ｎａｍｅｎｏｄｅ—ｆｏｒｍａｔ／／格式化目录节点　￥ｓｔａｒｔ—ａｌ１．ｓｈ／／启动ｈａｄｏｏｐ进程　（５）安装ｅｃｌｉｐｓｅ，搭建集成开发环境。　２．３．２关键技术实现　系统在实现过程中，主要解决的问题包括数据上传、数据下载和数据删除三个方面，具体通过调用　Ｈａｄｏｏｐ的ＡＰＩ接口来实现，核心代码如下：　上传模块核心代码：　ｐｒｉｖａｔｅ　ｓｔａｔｉｃ　ｖｏｉｄ　ＵｐｌｏａｄＭｏｄｕｌｅ（ｓｔｉｒｎｇ　Ｓｒｃｃｌ，ｓｔｉｒｎｇ　Ｄｓｔｔ１）　｛　ＩｎｐｕｔＳｔｒｅａｍ　ｉｎｎｌ＝ｎｅｗ　ＢｕｆｆｅｒｅｄｌｎｐｕｔＳｔｒｅａｍ（ｎｅｗ　ＦｉｌｅＩｎｐｕｔＳｔｒｅａｍ（Ｓｒｃｃ１））；　Ｃｏｎｆｉｇｕｒａｔｉｏｎ　ｃｏｎｎｌ：ｎｅｗ　Ｃｏｎｆｉｕｇｒａｔｉｏｎ（）；　ＦｉｌｅＳｙｓｔｅｍ　ｆｓｓｌ＝ＦｉｌｅＳｙｓｔｅｍ．ｇｅｔ（ＵＲＩ．ｃｒｅａｔｅ（Ｄｓｔｔ１），ｃｏｎｎ１）；　／／设置输出流　ＯｕｔｐｕｔＳｔｒｅａｍ　ｏｕｔｔｌ＝ｆｓｓ１．ｃｒｅａｔｅ（ｎｅｗ　Ｐａｔｈ（Ｄｓｔｔ１））；　ＩＯＵｔｉｌｓ．ｃｏｐｙＢｙｔｅｓ（ｉｎｎｌ，ｏｕｔｔｌ，４０９６，ｔｒｕｅ）；　｝　下载模块核心代码：　ｐｒｉｖａｔｅ　ｓｔａｔｉｃ　ｖｏｉｄ　ＤｏｗｎＭｏｄｕｌｅ（ｓｔｒｉｎｇ　Ｄｓｔｔｌ，ｓｔｉｒｎｇ　Ｓｒｃｃ１）　｛　Ｃｏｎｆｉｕｇｒａｔｉｏｎ　ｃｏｎｎｌ＝ｎｅｗ　Ｃｏｎｆｉｇｕｒａｔｉｏｎ（）；　ＦｉｌｅＳｙｓｔｅｍ　ｆｓｓｌ：ＦｉｌｅＳｙｓｔｅｍ．ｇｅｔ（ＵＲＩ．ｃｒｅａｔｅ（Ｄｓｔｔ１），ｃｏｎｎ１）；　／／获取文件输入流　ＦＳＤａｔａＩｎｐｕｔＳｔｒｅａｍ　ｉｎＳｔｒｅａｍｌ＝ｆｓｓ１．ｏｐｅｎ（ｎｅｗ　Ｐａｔｈ（Ｄｓｔｔ１））；　ＯｕｔｐｕｔＳｔｒｅａｍ　ｏｕｔｔｌ＝ｎｅｗ　ＦｉｌｅＯｕｔｐｕｔＳｔｒｅａｍ（Ｓｒｃｃ１）；　／／设置缓冲区　ｂｙｔｅ［］ｉｏＢｕｆｆｅｒ＝ｎｅｗ　ｂｙｔｅ［１０２４］；　ｉｎｔ　ｒｅａｄＬｅｎ＝ｉｎＳｔｒｅａｍ１．ｒｅａｄ（ｉｏＢｕｆｆｅｒ）；　ｏｕｔｔ１．ｃｌｏｓｅ（）；　｝　・　・　陕西理工学院学报（自然科学版）　删除模块核心代码：　ｐｒｉｖ￣ｅ　ｓｔａｔｉｃ　ｖｏｉｄ　ＤｅｌｅｔｅＭｏｄｕｌｅ（ｓｔｒｉｎｇ　Ｄｓｔｔ１）　第２８卷　｛　Ｃｏｎｆｉｇｕｒａｔｉｏｎ　ｃｏｎｎｌ：ｎｅｗ　Ｃｏｎｆｉｕｒｇａｔｉｏｎ（）；　ＦｉｌｅＳｙｓｔｅｍ　ｆｓｓｌ＝ＦｉｌｅＳｙｓｔｅｍ．ｇｅｔ（ＵＲＩ．ｃｒｅａｔｅ（Ｄｓｔｔ１），ｃｏｎｎ１）；　／／删除文件　ｆｓｓ１．ｄｅｌｅｔｅＯｎＥｘｉｔ（ｎｅｗ　Ｐａｔｈ（Ｄｓｔｔ１））；　ｆｓｓ１．ｃｌｏｓｅ（）；　｝　２．４系统性能测试　系统测试时，将数据文件分成不同量级进行规则计算，并对单机和Ｈａｄｏｏｐ集群的耗时进行统计对比。测试结果如　图５所示。　从图５中可以看出，系统处理的数据量为１　ＧＢ　时，集群耗用的时间大约是单机耗时的６倍，这是　因为集群的分布式架构在系统初始化和中间文件　的生成与传递上耗费了一些时间，数据量较小时，　Ｈａｄｏｏｐ集群没有发挥出分布式计算的优势。随着　输入文件的数据量增大，Ｈａｄｏｏｐ集群的分布式并　行计算的优势逐渐发挥出来。当输入的数据量从　５　ＧＢ增加到２０　ＧＢ，单机处理时间增加幅度明显增　大，反而集群系统处理时间增加幅度却不是很大。　当数据量接近２０　ＧＢ时，集群系统耗时大约只有单　机耗时的１／４。　数据量（ＧＢ）　测试数据表明，随着数据量的增大，相比单机，　２．５系统应用优势　图５　集群性能测试结果　集群节约的时间量越来越大。体现了Ｈａｄｏｏｐ集群在大数据量处理速度上的巨大优势。　本系统能够快速、高效地处理海量数据，满足在校园办公、教学和科研过程中的应用需求，具体优势　表现在以下几方面：　．　①安全可靠性高。系统将文件以多副本的形式在不同服务器中保存，如果某个节点出现故障，系统　将自动把失败的计算任务重新进行部署，保障了数据的安全性和完整性。　②数据处理速度快。系统把文件分发到不同的本地计算节点上进行数据处理，减少数据传输，同时　拥有ＭａｐＲｅｄｕｃｅ模型的计算优势，大大提高了数据处理速度。　③运行成本较低。采用分布式计算架构，对服务器性能要求较低，大大降低了构建系统的成本。　④扩展性好。系统采用并行扩容方式，可以根据需要随时扩展集群规模和存储容量。　３　结束语　通过对云计算的分布式、并行计算和海量数据存储等技术的研究，结合学校网络应用中海量数据存　储的实际需求，设计并实现了校园云存储系统。系统具有编程简化、安全可靠性高、开发成本低、易于实　现等优点。不仅满足校园中海量数据存储和管理应用，并对今后数字化校园建设中数据存储和服务器　使用规划有一定参考价值。　【　参考文献　］　［１］　朱珠．基于Ｈａｄｏｏｐ的海量数据处理模型研究和应用［Ｄ］．北京：北京邮电大学，２００８：３２－４０．　［２］　黄晓云．基于ＨＤＦＳ的云存储服务系统研究［Ｄ］．大连：大连海事大学，２０１０：１１－１４．　［３］Ｄｅｒｅｋ　Ｔａｎｋｅ１．Ｓｃａｌａｂｉｌｉｔｙ　ｏｆ　Ｈａｄｏｏｐ　Ｄｉｓｔｉｒｂｕｔｅｄ　Ｆｉｌｅ　Ｓｙｓｔｅｍ［Ｒ］．Ｙａｈｏｏ　ｄｅｖｅｌｏｐｅｒ　ｗｏｒｋ，２０１０．　．３４．　第４期　高新成，王莉利　基于Ｈａｄｏｏｐ的校园云存储系统的研究　［４］Ｔｏｍｅ　Ｗｈｉｔｅ．Ｈａｄｏｏｐ：Ｔｈｅ　Ｄｅｆｉｎｉｔｉｖｅ　Ｇｕｉｄｅ［Ｍ］．Ｏ　ＲＥＩＬＬＹ　ＰＲＥＳＳ，２００９：９－１３．　［５］Ｄｅａｎ　Ｊ，Ｇｈｅｍａｗａｔ　Ｓ．ＭａｐＲｅｄｕｃｅ：Ｓｉｍｐｌｉｉｆｅｄ　ｄａｔａ　ｐｒｏｃｅｓｓｉｎｇ　ｏｎ　ｌａｒｇｅ　ｃｌｕｓｔｅｒｓ［Ｃ］／／Ｐｒｏｃ．Ｏｆ　ｔｈｅ　６ｔｈ　Ｓｙｍｐ．ｏｎ　Ｏｐｅｒａｔｉｎｇ　Ｓｙｓｔｅｍ　Ｄｅｓｉｇｎ　ａｎｄ　Ｉｍｐｌｅｍｅｎｔａｔｉｏｎ．２００４：１３７－２５０．　王凯，吴泉源，杨树强．一种多用户ＭａｐＲｅｄｕｃｅ集群的作业调度算法的设计与实现［Ｊ］．计算机与现代化，　２０１０（２０）：２３－２８．　［责任编辑：魏强］　Ｒｅｓｅａｒｃｈ　ｏｆ　ｃｌｏｕｄ　ｓｔｏｒａｇｅ　ｓｙｓｔｅｍ　ｆｏｒ　ｃａｍｐｕｓ　ｂａｓｅｄ　ｏｎ　Ｈａｄｏｏｐ　ＧＡＯ　Ｘｉｎ．ｃｈｅｎｇ　，ＷＡＮＧ　Ｌｉ．１ｉ　（１．Ｍｏｄｅｍ　Ｅｄｕｃａｔｉｏｎ　Ｔｅｃｈｎｉｑｕｅ　Ｃｅｎｔｅｒ，Ｎｏｒｔｈｅａｓｔ　Ｐｅｔｒｏｌｅｕｍ　Ｕｎｉｖｅｒｓｉｔｙ，Ｄａｑｉｎｇ　１６３３１８，Ｃｈｉｎａ；　２．Ｓｃｈｏｏｌ　ｏｆ　ｃｏｍｐｕｔｅｒ＆Ｉｎｆｏｒｍａｔｉｏｎ　Ｔｅｃｈｎｏｌｏｇｙ，Ｎｏｒｔｈｅａｓｔ　Ｐｅｔｒｏｌｅｕｍ　Ｕｎｉｖｅｒｓｉｔｙ，Ｄａｑｉｎｇ　１６３３　１８，Ｃｈｉｎａ）　Ａｂｓｔｒａｃｔ：　Ａｃｃｏｒｄｉｎｇ　ｔｏ　ｔｈｅ　ｍａｓｓ　ｄａｔａ　ｓｔｏｒａｇｅ　ｐｒｏｂｌｅｍ，ｔｒａｄｉｔｉｏｎａｌ　ｍｅｔｈｏｄｓ　ｕｓｕａｌｌｙ　ｎｅｅｄ　ｍｏｒｅ　ｓｅｒｖｅｒｓ　ｔｏ　ｉｎｃｒｅａｓｅ　ｃｏｍｐｕｔｉｎｇ　ｓｐｅｅｄ　ａｎｄ　ｓｔｏｒａｇｅ　ａｂｉｌｉｔｙ，ｗｈｉｌｅ　ｔｈｅ　ｈａｒｄｗａｒｅ　ｃｏｓｔ　ｉｓ　ｖｅｒｙ　ｅｘｐｅｎｓｉｖｅ　ａｎｄ　ｔｈｅ　ｓｔｏｒａｇｅ　ｅｆｆｉ—　ｃｉｅｎｃｙ　ｉｓ　ｌｏｗ．Ｔｈｒｏｕｇｈ　ｔｈｏｒｏｕｇｈ　ｓｔｕｄｙ　ｏｆ　ＭａｐＲｅｄｕｃｅ　ｐｒｏｇｒａｍｍｉｎｇ　ｍｏｄｅｌ　ａｎｄ　Ｈａｄｏｏｐ　ｆｒａｍｅｗｏｒｋ，ｔｈｉｓ　ｐａｐｅｒ　ｐｒｅｓｅｎｔｅｄ　ａ　ｍａｓｓ　ｄａｔａ　ｓｔｏｒａｇｅ　ｍｏｄｅｌ　ｂａｓｅｄ　ｏｎ　Ｈａｄｏｏｐ　ｆｒａｍｅｗｏｒｋ，ｔｈｅｎ　ａ　ｍａｓｓ　ｄａｔａ　ｓｔｏｒａｇｅ　ｓｙｓｔｅｍ　ｆｏｒ　ｃａｍｐｕｓ　ｎｅｔｗｏｒｋ　ｂａｓｅｄ　ｏｎ　ｃｌｏｕｄ　ｃｏｍｐｕｔｉｎｇ　ｗａｓ　ｄｅｓｉｇｎｅｄ　ａｎｄ　ｉｍｐｌｅｍｅｎｔｅｄ．Ｔｈｉｓ　ｓｙｓｔｅｍ　ｃａｎ　ｅｆｆｅｃｔｉｖｅｌｙ　ｓｏｌｖｅ　ｉｓｓｕｅｓ　ｉｎ　ｍａｓｓ　ｄａｔａ　ｓｔｏｒａｇｅ　ｍａｎａｇｅｍｅｎｔ　ｉｎ　ｔｅａｃｈｉｎｇ　ａｎｄ　ｓｔｕｄｙ．Ｔｈｉｓ　ｓｙｓｔｅｍ　ｉｓ　ｃｈｅａｐ，ｅａｓｉｌｙ　ｏｐｅｒａｔｅｄ，ｆａｓｔ　ａｎｄ　ｓｔａｂｌｅ．　Ｋｅｙ　ｗｏｒｄｓ：Ｈａｄｏｏｐ；　ＭａｐＲｅｄｕｃｅ；　ｃｌｏｕｄ　ｃｏｍｐｕｔｉｎｇ；ｄｉｓｔｒｉｂｕｔｅｄ　ｃｏｍｐｕｔｉｎｇ；　ｓｔｏｒａｇｅ　ｍｏｄｅｌ　（上接第２２页）　［　参考文献　］　ｌ　程唯．高科技园规划与设计初探［Ｄ］．武汉：华中科技大学，２００４：２－５．　２　翁晓龙，江骅．软件园空间布局策略——以长春启明软件园概念性规划为例［Ｊ］．理想空间，２０１１（３）：７０－７３．　３　王振军．人与自然通过科技在信息时代的整合——上海浦东软件园设计［Ｊ］．建筑学报，２０００，１８（２１）：３７．３９．　４　任尧．产业园的多元发展——武汉光谷软件园［Ｊ］．时代建筑，２００９（５）：２２６．１３　２．　５　陶亮．创新、生态、人文特质的软件园区——南京徐庄软件园景观规划设计［Ｊ］．华中建筑，２００７，２（７）：１４５．１４９．　６　王大伟，许茗劫，吴文浩．功能特质解析与空间形体表达——中兴南昌软件产业园概念性规划方案［Ｊ］．华中建筑，　２００６，２４（２２）：２４８—１５１．　［责任编辑：谢平］　Ｔｈｅ　ｉｎｉｔｉａｌ　ｒｅｓｅａｒｃｈ　ｏｆ　ｓｐａｔｉａｌ　ｌａｙｏｕｔ　ｉｎ　ｈｉｇｈ　ｔｅｃｈｎｏｌｏｇｙ　ｐａｒｋ　ｔａｋｉｎｇ　ｔｈｅ　ｃｏｎｅｃｐｔ　ｐｌａｎ　ｏｆ　Ｓｈａｎｇｈａｉ　Ｈｕａｈｏｎｇ　ｉｎｎｏｖａｔｉｏｎ　ｐａｒｋ　ａｓ　ａｎ　ｅｘａｍｐｌｅ　ＮＩＥ　Ｈａｏ，　ＮＩＵ　Ｗｅｎ－ｂｏ，　ＯＵ—ｙａｎｇ　Ｄｏｎｇ　（Ｔｈｅ　ＩＴ　Ｅｌｅｖｅｎｔｈ　Ｄｅｓｉｇｎ＆Ｒｅｓｅａｒｃｈ　Ｉｎｓｔｉｔｕｔｅ　Ｓｃｉｅｎｔｉｆｉｃ　ａｎｄ　Ｔｅｃｈｎｏｌｏｇｉｃａｌ　Ｅｎｇｉｎｅｅｒｉｎｇ　Ｃｏｒｐｏｒａｔｉｏｎ　Ｌｉｍｉｔｅｄ．　Ｃｈｅｎｇｄｕ　６１００２１，Ｃｈｉｎａ）　Ａｂｓｔｒａｃｔ：Ｔｈｅ　ｓｐａｔｉｌａ　ｌａｙｏｕｔ　ｉｓ　ａｎ　ｉｍｐｏｒｔａｎｔ　ｐａｒｔ　ｏｆ　ｔｈｅ　ｄｅｓｉｇｎ　ｏｆ　ｈｉｇｈ　ｔｅｃｈｎｏｌｏｇｙ　ｐａｒｋ．ｔｈｅ　ｐａｐｅｒ　ｔｉｒｅｓ　ｔｏ　ｒｅｓｅａｒｃｈ　ａｎｄ　ｄｉｓｃｕｓｓ　ｔｈｅ　ｓｐａｔｉａｌ　ｌａｙｏｕｔ　ｏｆ　ｈｉｇｈ　ｔｅｃｈｎｏｌｏｇｙ　ｐａｒｋ．Ｂｙ　ｔａｋｉｎｇ　ｔｈｅ　ｃｏｎｃｅｐｔ　ｐｌａｎ　ｏｆ　Ｓｈａｎｇｈａｉ　Ｈｕａ．　ｈｏｎｇ　ｉｎｎｏｖａｔｉｏｎ　ｐａｒｋ　ａｓ　ａｎ　ｅｘａｍｐｌｅ，ｔｈｅ　ｈｉｇｈ　ｔｅｃｈｎｏｌｏｇｙ　ｐａｒｋ　ｉｓ　ｔｈｅ　ｒｅｓｕｌｔ　ｏｆ　ｔｈｅ　ｉｎｔｅｒａｃｔｉｏｎ　ａｍｏｎｇ　ｕｒｂａｎ　ｐｌａｎ，　ａｒｃｈｉｔｅｃｔｕｒｅ　ａｎｄ　ｓｏｃｉｅｔｙ．Ｄｕｒｉｎｇ　ｔｈｅ　ｄｅｓｉｇｎ　ｏｆ　ｔｈｅ　ｓｐａｔｉａｌ　ｌａｙｏｕｔ，ｍｅｅｔｉｎｇ　ｔｈｅ　ｐｓｙｃｈｏｌｏｇｉｃａｌ，ｃｏｍｍｕｎｉｃａｔｉｖｅ　ａｎｄ　ｄｅｖｅｌｏｐｉｎｇ　ｎｅｅｄｓ　ｏｆ　ｔｈｅ　ｕｓｅｒｓ　ａｎｄ　ｔｈｅ　ｃｏｍｐａｎｉｅｓ　ｍｕｓｔ　ｂｅ　ｐａｉｄ　ａｔｔｅｎｔｉｏｎ　ｔｏ　ａｓ　ｔｈｅ　ｉｍｐｏｒｔａｎｔ　ｎｅｅｄ　ｏｆ　ｔｈｅ　ｓｕｂｓｔａｎｔｉａｌ　ｓｐａｃｅ．　Ｋｅｙ　ｗｏｒｄｓ：ｈｉｇｈ　ｔｅｃｈｎｏｌｏｇｙ　ｐａｒｋ；　ｓｐａｔｉａｌ　ｌａｙｏｕｔ；ｄｅｓｉｇｎ　・３５・　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部频道

基于Hadoop的校园云存储系统的研究