作业帮 > 字数作文 > 教育资讯

彩虹分布式云任务

来源:学生作业帮助网 编辑:作业帮 时间:2024/09/23 08:17:47 字数作文
彩虹分布式云任务字数作文

篇一:分布式云计算

目录

一、定义 ............................................................................................................................... 1

二、工作方式 ....................................................................................................................... 1

三、作用 ............................................................................................................................... 1

四、局限性 ........................................................................................................................... 1

五、安全问题 ....................................................................................................................... 2

七、分布式计算 - 对计算机软硬件的影响 .......................................................................... 2

分布式计算

一、定义

分布式计算是一门计算机科学,主要研究分布式系统。一个分布式系统包括若干通过网络互联的计算机。这些计算机互相配合以完成一个共同的目标(我们将这个共同的目标称为“项目”)。具体的过程是:将需要进行大量计算的项目数据分割成小块,由多台计算机分别计算,再上传运算结果后统一合并得出数据结论。在分布式系统上运行的计算机程序称为分布式计算程序;分布式编程就是编写上述程序的过程。

二、工作方式

项目方把大的计算任务分割成小块(任务单元),通过互联网分发给志愿者进行计算,志愿者计算完成后再通过网络把各自的计算结果返回到项目方的服务器。

三、作用

可以帮助一些缺乏研究资金的、公益性质的科学研究,加速人类的科学进程。有效利用全世界联网机器的闲置处理能力,向大众普及科学意识。

四、局限性

如上分布式计算的工作方式,该类科学研究必须是可能通过计算来解决全部或部分问题,而且其计算过程必须比较容易被分割成个人计算机的处理能力能够接受的大小,因此,分布式计算并不适用于所有的科学研究。

五、安全问题

1.信任项目

对用户方来说,加入任何一个项目前,您必须确保您可以信任项目的研制方,主要涉及两方面:个人计算机上的隐私数据,您从项目方下载的计算程序,运行在本机,而且可以访问网络,因此,只有可靠的项目方才能保证您计算机上的隐私数据不会恶意的取走、修改等。

2.个人计算机寿命

个人计算机的寿命,虽然分布式计算的计算程序一般运行在最低优先级,不会对您的日常使用造成影响,但计算程序全负荷运行时仍会对计算机的各个部件造成一定压力,要了解更多请查看分布式计算对计算机软硬件的影响。

3.冗余计算机制

对项目方来说,参加分布式计算的志愿者毕竟不是项目方自己的人员,并不是全体可信任,因此必须引入一定的冗余计算机制,才防止计算错误、恶意作弊等。

六、任务单元

任务单元,又称为任务包,对应的英文单词为 Workunit,可简称 WU,是分布式计算项目的客户端分配到的最小单元的计算任务。客户端在连接到项目服务器后,可下载一个或多个新任务单元,计算完成后,再将这些任务单元的计算结果上传给项目服务器,并根据情况决定是否同时取回更多新的任务单元。

七、分布式计算 - 对计算机软硬件的影响

1、软件方面

分布式计算项目对计算机的使用与日常应用所运行的程序并无很大区别,主要区别是项目计算程序一般会以最低优先级别获得所有空闲的CPU时间,因为比起其他程序的优先级别都要低,所以虽然一般情况下计算项目看上去占用了全部的处理器资源,但一旦其他程序需要CPU运算时,项目计算程序会在操作系统的调度下自动让出CPU时间。对于 BOINC 平台的用户,根据您的需要,既可在客

户端的本地参数设置使项目只当计算机空闲时进行运算,也可以直接允许 BOINC 使用的处理器资源比例,具体操作可以参考 BOINC 的使用教程。

2、硬件方面

计算机的部件一般包括主机板(motherboard)、中央处理器(CPU)、内存(memory)、硬盘(hard disk)、显示卡(display card)、电源(power)、显示器(monitor)、键盘(keyboard)、鼠标(mouse)等等。

分布式计算项目所利用志愿者的硬件主要是CPU、内存和显示卡图形处理器(GPU)的闲置资源,并占用一些硬盘空间。由于各项目的差异性很大,所占用的内存和硬盘空间也分别很大。例如数学类项目对内存和硬盘的占用都比较少,而生命科学类的项目会占用较多内存与硬盘空间。虽然运行分布式计算项目对计算机的硬件寿命并未多少缩减,但长期运行还是会带来一些影响。

3、对主机板的影响

计算项目运行过程将有大量数据在各个部件交换,芯片组的使用率将提高,同时会带来一定的能耗和散热问题。

4、对CPU的影响

计算必然需要CPU的消耗运算功能,而此时CPU将全速进行工作,CPU所消耗的电力和产生的热量也随之大幅增加。

5、对内存的影响

运行计算程序需要占用一定的内存空间。如果计算机所配置的内存不多的情况下,运行计算程序将减少可用的内存空间,特别对于多路多核系统,每个CPU核心都将运行一个计算程序,此时所消耗的内存空间会倍增。BOINC平台用户可以通过本地参数设置来限制项目使用的CPU的数量(详见 BOINC 的使用教程)。

6、对硬盘的影响

参加分布式计算项目须在硬盘储存客户端软件、计算程序、任务单元等资料,不同的项目对硬盘空间的需要有所不同,例如CPDN等气候项目需要比较多的硬盘空间,达到几百MB。一般项目都不需要频繁的读写硬盘数据,但有些项目会需要较多的页面文件(虚拟内存)空间。

7、对显示卡的影响

不少项目有提供屏幕保护程序,所显示的图形会消耗一定的CPU与GPU的计算能力,同时带来电力消耗和散热问题。利用GPU计算能力的项目有着与对CPU同样的影响,电耗和散热的问题。另外由于调度GPU进行计算时需要到CPU的协助,会同时消耗一定的CPU计算时间。

8、对电源的影响

运行项目时CPU会消耗大量电力,特别对于超频使用的,请保证整机电力消耗在电源额定使用范围内。如果电源长期超负荷运作,将影响电源的寿命,而且电源的转换效率也会降低。电源的故障更会涉及其他所有部件的安全。

9、对显示器的影响

带屏幕保护程序的项目可以设置在计算机闲置是启用屏保,对于CRT显示器有一定的保护作用。但由于开启显示器即消耗电力,建议在计算机闲置时手动关闭显示器或者设置自动关闭显示器,以节省能耗。

10、对散热器的影响

运行计算程序将是计算机各个部件产生更多的热量。风冷散热器的风扇将以高速运转。风扇寿命会降低,同时计算机环境的灰尘会更快的囤积在风叶和散热片上,增加了清理灰尘的频率。由于风扇的高速运转,将对环境带来更大的噪音。

11、对网络的影响

大部分项目对网络的需求都很低,计算程序和工作单元文件一般不大,在进行计算时一般都不需要网络连接。往后只需要下载新工作单元和上传计算结果。

篇二:分布式系统及云计算复习资料

1.分布式计算是一种把需要进行大量计算的工程数据分割成小块,由多台计算机分别计算,在上传运算结果够,将结果统一合并得出数据结论的科学。

2.分布式系统的关键目标:用户可以方便的访问资源;对用户隐藏资源再多台计算机上分布的情况;分布式系统是开放的;分布式系统是可扩展的

3.资源可访问性:是用户可以方便的访问远程资源,并且以一种受控的方式与其他用户共享这些资源。

4.透明性;指分布系统是一个整体,而不是独立的组件的组合,系统对用户和应用程序屏蔽其组件的分离性。

5.云计算:由一系列可以动态升级和被虚拟化的资源组成,这些资源被所有云计算的用户所共享并且可以方便的通过网络访问,用户无需掌握与计算技术,只需要按照个人或者团体的需要租赁与计算的资源。

6.云计算的优缺点;优点(1.数据的可移性2.轻松维护个人应用程序和个人文件3.对计算机的要求低4.给多人协作带来了机会5.资源整合使用率高6.节电省能,降低成本)缺点(1.对网络的高依赖性2.数据的安全问题3.数据的存活能力

7.集群运算与网格运算的区别:1在集群中,资源位于单个的管理区中由单个实体进行管理;而在网格系统中,资源分布在不同的管理区。每个管理区都有其策略和目标2应用程序的调度安排,集群系统中的调度器着眼于提高整个系统性能;而在网格系统中调度器被称为资源代理着眼于提升特定应用的表现来满足终端用户的服务质量需求。

8.分布式系统:是一组自治的计算机集合,通过通信网络和相互链接,实现资源共享和协同工作,而呈现给用户的是单个完整的计算机系统。

9.分布式与集中式区别:1.分布式各组件和进程行为是物理并发的,没有统一时钟,而集中式系统的时间是明确的,同步机制实行起来相对容易2.分布式系统各组件必须实现可靠安全的相互作用,当一部分出现故障时,系统大部分工作仍可进行。而集中式系统出现鼓掌则不能继续工作3.分布式系统的异构性。4与集中式系统相比,分布式系统响应时间较短。5.分布式系统具有可扩展性。

10.分布式与计算机网络区别:1.分布式系统各个计算机之间相互通信,无主从关系,网络有主从关系2.分布式系统资源为所有用户共享,网络有限制的共享3.分布式系统中若干个计算机可相互协作共同完成一项任务,网络不行。

11.对等体系结构:在对等体系机构中,一项任务或活动涉及的所有进程扮演相同的角色,作为对等方进行协作交互,不区分客户和服务器或运行它们的计算机。

12.中间件:是一种独立的系统软件或服务程序,分布式应用软件借助这种软件在不同的技术之间共享资源,中间件位于客户机服务器的操作系统之上,管理计算资源和网络通信。

13.分布式系统分类:1布式计算系统2分布式信息系统3分布式普适系统

14.分布式系统中的硬件:1基于总线的多处理机2基于交换的多处理机3基于总线的多计算机4.基于交换的多计算机

15.分布式系统中的软件:1分布式操作系统,2.网络操作系统3中间件系统

16.分布式操作系统:是分布式软件系统的重要组成部分。负责管理分布式系统资源,控制分布式程序运行等,其主要目的是为了隐藏细节,管理硬件资源,提供系统接口,使得并进程能够共享系统资源。

17.网络操作系统:是传统操作系统的扩充,为用户提供各种交换信息和资源共享的服务,这是一种典型的松耦合的软件与松耦合的硬件结合形成的系统。

18.中间件系统:满足大量用户的需求;运行于多种硬件和OS平台;支持分布式计算,提供跨网络、硬件和OS平台的透明性应用或服务的交互功能;支持标准的协议;支持标准的接口。

19.分布系统中的主要特征:1.容错性是允许系统出错的,但它可以在故障后恢复,而不丢失数据分布式系统区别与单机系统的一个特征是可以容许部分失效。2.安全性指系统中的数据被有意或者无意地泄露以及数据和其他系统资源被破坏的问题。

20.客户—服务器体系结构:是一个物理上分布的逻辑整体,它是由客户机、服务器和连接支持部分组成。客户机:是一个面向最终用户的接口设备或应用程序,它是一项服务的消费者,它包含并管理数据库和通信设备,为客户请求过程提供服务;连接支持部分是用来连接客户机与服务器的部分,如网络连接、网络协议、应用接口等。

21.客户-服务器结构的优点:1.有利于实现资源共享2.有利于进程通信的同步,3.可实现管理科学化和专业化4.可快速进行信息处理5.具有更好的扩展性

22.面向连接服务与面向无连接的服务:

23.1面向连接的服务是指通信双方在通信过程中必须建立一个虚拟的通信线路

24.数据传输过程必须经过连接建立、连接维护与释放连接三个阶段;

25.在数据传输过程中,各个分组不需要携带目的节点的地址;

26.传输连接类似一个通信管道,发送者在一端放入数据,接收者在另一端取出数据,传输的分组顺序不变,因此传输的可靠性好,但是协议复杂,通信效率不高。

27.2无连接服务的主要特点是:

28.每个分组都携带源节点与目的节点地址,各个分组的转发过程是独立的;

29.传输过程不需要经过连接建立、连接维护与释放连接三个阶段;

30.目的主机接收的分组可能出现乱序、重复与丢失现象。

31.无连接服务的可靠性不是很好,但是由于省去了很多协议处理过程,因此它的通信协议相对简单,通信效率比较高。

32.应用程序的层次结构:1用户界面层:是用户通过界面中的一些友好提示信息与服务器进行交互的一个层次。2逻辑事务处理层:在客户端用户提出请求之后,服务器对客户端提交的请求服务进行处理,也是整个系统的核心。3数据层:是整个客户-服务器模型的基础,一般是由服务器提供,它为逻辑事务处理层提供处理过程所需要的数据。

33.多层体系结构的特点:安全性;稳定性;易维护性;快速响应性;系统灵活扩展性

34.双层体系结构特点:1.缺乏有效的安全性2.客户端负荷过重3.服务器端工作效率低4.容易造成网络阻塞

35.计算机网络通信过程实质是分布在不同地理位置的主机进程之间进行通信的过程,进程间的通信实际就是进程之间的相互作用,客户-服务器模式实际上就是提供呢进程间相互作用的一种方式。

36.进程通信中客户——服务器你模型的实现方法:1并发服务器:核心是使用一个守护程序;处于后台工作,当条件满足时被激活进行处理。2迭代服务器:通过设置一个请求队列存储多个客户的服务请求,服务器采用先到先服务的原则影响客户端的请求。

37.并发与代理服务器的比较:1并发服务器:系统资源要求高;可以处理多个用户的服务请求;从服务器不以来主服务器而独立处理服务请求;不同的从服务器可以分别处理不同客户的服务请求;系统的实时性好;适应于面向连接服务类型 .2迭代服务器:系统资源要求不高;处理客户的服务请求的数量受到请求队列长度的限制;可以有效的控制请求处理时间;适应于无连接的服务类型。

38.OSI七层:1物理层是OSI参考模型的最低层,主要功能是为数据链路层屏蔽网络的底层物理传输介质的差异。2数据链路层:OSI模型的第二层,它控制网络层与物理层之间的通信。它的主要功能是如何在不可靠的物理线路上进行数据的可靠传递。3.网络层:O S I 模型的第三层,主要任务是通过路由选择算法,为分组通过互联网选择适当的路径4.传输层:向用户提供可靠的端到端的服务,其主要任务就是实现分布式进程的通信,是整个协议结构的核心5.会话层:负责在网络中的两节点之间建立、维持和终止通信。6.表示层:主要是处理两个通信系统中交换信息的表示方式,包括数据格式变换,数据加密和解密,数据压缩与恢复功能7.应用层:应用层是最高层,主要功能是为应用程序提供网络服务。

39.客户-服务器端模型的变种:1移动代码:是指能从一台计算机下载到另一台计算机运行的代码。2移动代理:可以从一台计算机移动到网络上的另一台计算机,访问本地计算机得资源,完成存储信息收集之类的任务,最后返回结果的一种应用程序。3网络计算机:是一种专门用于网络计算机环境下的终端设备4瘦客户:指一个软件层,它支持用户端得计算机枪基于窗口的用户界面,而在远程的计算机上执行的应用程序5移动设备和自主网络

40.分布式对象:将接口放在一台计算机上,对象本身却驻留在另一台计算机上。

41.远程对象特征:它们的状态并不是分布的;它驻留在单个计算机上,只有由该对象实现的接口可以在其他计算机上使用。

42.分布式对象的基本模型:1.远程对象2.分布式共享对象。

43.远程过程调用的基本思想:是调用方通过使用参数来把信息发送给被调用方,然后被调用方就传回调用方想要得到的信息。

44.隐式绑定和显示绑定:隐式绑定是一种简单机制,该机制允许客户在只使用对象引用的情况下可以直接进行方法调用。显示绑定一般返回指向代理的指针,该代理可以在本地使用。

45.RMI和RPC本质上的不同:RMI一般支持系统级对象引用;RPC不需要使用通用的客户端和服务器存根,却可以更加方便的使用针对特定对象的存根。

46.分布式计算环境:是用来作为现有的操作系统和分布式式应用程序之间的中抽象层

47.最常见的两种分布式对象:1分布式动态对象,它是由服务器以客户的名义在本地创建,只能由所代表的客户访问。2 分布式命名对象,它由服务器创建后可以供多个客户共用

48.java远程方法调用的优点:1.安全2.可移动属性3.设计方式4.安全5.便于编写和使用6.编写一次7.分布式垃圾收集8.并行计算。

编程部分: 1.IDL模块 module china{

Module ruc{//no definition here}

}; 映射结果

package china.ruc; 2.Idl常量

Module ConstIDL{const long myconstant=123}; 映射结果

packageConstIDL Public interface myconstant{public static final int value=(int)(123;)} 3.IDL结构体类型

Module structmodule{

Struct person{string name;short age;}; };

生成结果

Package structmodule;

Public final class persion implements org.omg.CORBA.portable.IDLEntity{ Public string name=null; Public short age=short(0); Public person(){} Public

person(srting_name,short_age){name=_name;age=_age;} }

4.IDL序列和数组

Module arraymodule{

Struct somestructure{ Long longarray[15];

Sequenceunboundedbools; Sequenceboundedchars; }; };

数组和序列定义为如下java代码 Public int longarray[]=null;

Public boolean unboundedbools[]=null; Public char boundedchars[]=null; 5.IDL异常

Module exceptionmodule{

Exception yikeserror {string info;}; };

映射结果: Yikeserror异常代码 Package exceptionmodule;

Public final class yikeserror extends org.omg.CORBA.UserException{ Public final class info=null; Public

yikeserror(){suoer(yikeserrorhelper.id();} Public

yikeserror(super_info){suoer(yikeserrorhelper.id();info=_info)}

Public yikeserror(string$reason,string_info){ Super(yikeserrorhelper.id()+” ”+$reason);info=_info; } }

6 Bank实例 Module bank {

Interface Account; Interface Control {

expectionAccountNotExist()

Account openAccount(in string acct,in string passwrd)

Raises(AccountNotExist);

Void closeAccount (in string acct); }

Interface Account {

Readonly attribute unsigned long balance; Unsigned long Deposit (in unsigned long account);

Unsigned long Withdraw (in unsigned long amount); } }

篇三:分布式云计算平台

产品彩页

分布式云计算系统

产品概述

? 数梦飞天云平台是数梦工场基于阿里云平台为行业客户量身定制的专有云平台,数梦飞天云平台完全基于自主知识产权,先后获85项国家技术专利,获得国家发改委的云计算专项资金支持。

? 数梦飞天云致力于打造云计算的服务能力平台,注重为政府、教育、医疗、金融、企业等行业客户提供大规模、低成本的云计算和大数据服务。数梦飞天的目标是通过构建支持多种不同业务类型的行业专有云平台,帮助行业用户简单快速建立自己业务系统,帮助用从关注运维向关注开发转变,将网络经济模式带入政府、行业客户,构建出以云计算为基础的全新生态链。

?

数梦工场为用户提供互联网化云服务交付,真正体现计算能力的规模效益,致力于大数据的价值挖掘,让数据增值,辅助政府决策,助力经济产业升级,服务公众。让最卓越的数据技术,去实现人类最美好的梦想!

数梦飞天云业务全景图

简单高效的弹性计算服务(ECS)

?

?

?

?

? 稳定,云磁盘数据可靠性不低于99.999%,自动宕机迁移、数据备份和回滚,系统性能报警。 安全,支持防DDos攻击、安全组自动划分访问权限,多租户安全隔离,支持防密码暴力破解。 弹性,10分钟内可创建和释放上百台云服务器,分钟级升级CPU和内存。 性能,随即IOPS达到1.2万,300MB/s的磁盘性能,高性价比,节约成本。 运维,提供简单自动化的运维界面,支持通过工具实现自动化备份和自定义镜像,实现云服务器的快速扩展、复制。

产品彩页

海量存储服务(OSS)

? 空间无限:海量的存储空间,随用户使用量的增加,空间弹性增长,无需担心数据容量的限制。并同时支持高并发、大容量的读写服务。

?

? 压缩存储:对存储在开放存储服务上的图片,支持缩略、裁剪、水印、压缩和格式转换等图片处理功能。 安全可靠:服务可用性高达99.9%,系统规模自动扩展,不影响对外服务,数据三重备份,可靠性达到99.99999999%。 安全稳定的数据库服务(RDS)

? 数据库是应用的核心,数据库的安全、可伸缩是系统稳定的第一保证,数梦飞天提供一种即开即用、稳定可靠、可弹性伸缩的在线数据库服务。具有多重安全防护措施和完善的性能监控体系,并提供专业的数据库备份、恢复及优化方案,使您能专注于应用开发和业务发展,具体特点如下:

? 专业备份机制:每台RDS拥有两个物理节点进行主从热备,主节点发生故障,秒级切换至备节点,服务可用性高

达99.95%,保证数据安全。

? 安全迁移:自定义访问IP白名单,防DDoS攻击,SQL注入告警控制平面的多级保护及安全性。完全兼容MySQL,

SQL Server协议一键式数据迁移。

?

? 性能优化:提供直观的慢SQL分析报告和完整的SQL运行报告,并提供如主键检查、索引检查等多种优化建议。 简单运维:专有的数据库管理平台,使用户通过浏览器即可安全、方便的进行数据库管理和维护;可随时进行数

据备份,能够根据备份文件将数据库恢复至7日内任意时刻;近20种性能资源监控视图,可对部分资源项设臵阈值报警,并提供WEB操作、SQL审计等多种日志。

开放数据处理服务(ODPS)

? 海量计算:采用分布式集群架构,跨集群技术突破,机群规模可以根据需要灵活扩展至5000台,彻底无极限解决

大数据存储与运算瓶颈,使您专心于数据分析和挖掘,最大化发挥数据价值。

? 数据安全:多层次数据存储和访问安全机制,保护您的数据:不丢失、不泄露、不被窃取;并且自动存储容错机

制,所有计算在沙箱中运行,保障数据高安全性、高可靠性。

? 简单易用:无需关心集群的搭建和运维,仅需简单的几步操作,即可开始数据的分析和挖掘任务,全面支持基于

SQL的数据处理。

高可用的安全防护(SLB + 云盾)

?

?

? SLB采用全冗余设计,无单点,支持同城容灾和跨REGION容灾,可用性高达99.99%。 根据应用负载进行弹性扩容,在流量波动情况下不中断对外服务。 与传统硬件负载均衡系统高投入相比成本能下降60%,私网类型实例免费使用,无需一次性采购昂贵的负载均衡

设备,无需运维投入。

? SLB结合云盾提供防DDoS攻击能力,包括:CC、SYN flood等DDoS攻击方式。

完善的第三方开放接口

? 数梦飞天云平台提供了完整的开放接口,通过此接口可快速实现对应用、资源和数据进行更灵活的部署、更快速

的操作、更精确的使用、更及时的监控。

2

产品彩页 产品系统构架

数梦飞天整体架构

分布式系统底层服务

? 资源管理:负责调度和分配集群的内存和计算等资源给上层应用和服务,管理运行在集群节点上的任务的生命周

期和资源使用。在多用户运行环境中,支持计算额度、访问控制、作业优先级和资源抢占,达到在保障公平的前提下有效地共享集群资源。

? 安全管理:提供以用户为单位的身份认证和授权,为集群数据资源和服务的访问控制生成权能。

远程过程调用

提供可靠高效的进程间远程调用服务,支持通讯信道的数据压缩和一致性校验。

分布协同服务

提供分布式系统基本的命名服务、状态同步服务和分布式锁服务。支持基于Paxos的分布式共识协议。

分布式文件系统

高可扩展性

?

?

? 提供类似于POSIX的用户空间文件访问API,支持随机读和追加写,可用于强一致性要求的事务日志场景。 支持上亿个文件和PB以上量级的文件存储。 基于Paxos协议的多Master设计,避免集群单点失效,自动进行故障监测和数据复制,在不依赖RAID卡和NAS

等特殊硬件。

?

? 设备的条件下,提供99.99%的可用性和大于十个9的数据可靠性。 Share-Nothing架构设计,支持大规模并发读写,充分利用分布式并行带宽。毫秒级别的日志更新操作,支持快

速响应的在线服务。

? 支持增量扩容和自动数据平衡能力,允许用户定制数据分布策略。

任务调度

?

面向海量数据处理和大规模计算类型的复杂应用,提供了一个数据驱动的多级流水线并行计算框架,在表述能力

3

上兼容MapReduce,Map-Reduce-Merge,Cascading,FlumeJava等多种编程模式。

?

? 支持十万以上级的并行任务调度。 自动检测故障和系统热点,重试失败任务,保证作业稳定可靠运行完成。 产品彩页

集群部署与监控

部署

提供整个飞天以及上层应用服务的部署、配臵管理、以及服务的自检和自举。支持在线集群扩容和应用服务的在线升级。 监控

监控飞天集群和上层应用服务的运行状况和性能指标,提供丰富的监控图表和集群状况仪表盘,支持用户定义的自动报警服务,以及在线性能剖析和故障诊断。

功能特性

4

产品彩页

5

篇四:云计算中MapReduce分布式并行处理框架的研究与搭建

XX大学本科毕业设计(论文)

云计算中MapReduce分布式并行处理框架的

研究与搭建

Research and Build of MapReduce Distributed Parallel Processing

Framework in Cloud Computing

学 院(系): 计算机科学与技术学院

专 业: 计算机科学与技术

学 生 姓 名: XXX

学 号: XXXXX

指 导 教 师: XXX

评 阅 教 师:

完 成 日 期: XXX年XX月

摘 要

大数据(Big Data),是随着计算机技术及互联网技术的高速发展而产生的独特数据现象。现代社会正以不可想象的速度产生大数据,幸运的是,计算机技术与互联网技术的发展,在产生大数据的同时,也给人们带来了全新的云计算技术。云计算技术带来的大数据处理能力,使得分析和掌握大数据中蕴藏的无尽信息、知识和智慧成为可能。

分布式计算(Distributed Computing)是将数量级大的工程数据划分成若干个小分块,由多个计算机即计算节点分别来计算后将运算结果进行上传,最终把结果进行合并从而得出统一的数据结论的计算过程。

并行计算(Parallel Computing)指的是将一个总的计算任务划分成多个子分块,在具备了并行处理能力的计算节点上,分配给不同的处理器,各处理器之间遵循调配机制并行地执行子分块任务,最终达到提升计算规模或者提高计算速度的目的。

在本设计中利用的是Hadoop分布式架构,其主要由3个子项目组成:MapReduce(编程模型和软件框架,用于在大规模计算机集群上编写对大数据进行快速处理的并行化程序)、HDFS(构建于廉价计算机集群之上的分布式文件系统)和Hadoop Common(为整体架构提供基础支撑功能)。着重研究MapReduce处理框架来建立了一个能够对数据进行可靠处理的分布式系统平台,使其以分布式并行工作方式加快处理速度,从而体现出其在云计算应用中处理大量数据时的优势。最终通过程序测试来分析MapReduce框架在数据处理中的流程及特点。

关键词:MapReduce;云计算;并行计算;Hadoop;分布式计算

The Subject of Undergraduate Graduation Project (Thesis) of DUT

Abstract

Big Data is the unique phenomenon with the rapid development of computer technology and Internet technology. Modern society is generating big data with unimaginable speed.Fortunately, with the development of computer technology and In

彩虹分布式云任务

ternet technology, not only generate large data, but also to bring a new Cloud Computing technologies.Cloud Computing technology brings big data processing capabilities, making analysis and master endless information hidden in large data, knowledge and wisdom as possible.

Distributed Computing is to divide the large magnitude of engineering data into several small sub-blocks, by a plurality of computers that compute nodes were calculated result of the operation will be uploaded eventually merge the results to arrive at a unified data calculation conclusions .

Parallel Computing is divided a general computing tasks into sub-blocks, with the compute nodes in the parallel processing capabilities allocated to different processors, the deployment mechanism to follow the sub-block are performed in parallel between the processor task, and ultimately achieve the purpose of enhancing or increasing computing scale computing speed.

In this design use the Hadoop project, its core is composed of three sub project: Hadoop Common (provide the foundation for the overall architecture supporting functions), HDFS (built on cheap computer cluster based distributed file system) and MapReduce (programming models and software framework for writing on large-scale computer cluster rapid processing of large data parallel programs). Focuses on MapReduce processing framework to set up a reliable data processing platform for distributed systems, make its work in distributed parallel way to speed up the processing speed, and reflects the advantages of its application in cloud computing. Finally by running the programs to analyze MapReduce framework in the data processing flow, and characteristics.

Key Words:MapReduce; Cloud Computing; Parallel Computing; Hadoop; Distributed Computing

目 录

摘 要 ..................................................................................................................................... I Abstract ...................................................................................................................................... II

引 言 .................................................................................................................................... 1

1 背景知识 .............................................................................................................................. 3

1.1 云计算 ....................................................................................................................... 3

1.1.1 云计算定义 .................................................................................................... 3

1.1.2 云计算的三种服务模式 ................................................................................ 4

1.1.3 云计算的四种部署方式 ................................................................................ 4

1.2 并行计算 ................................................................................................................... 5

1.2.1 并行计算定义 ................................................................................................ 5

1.2.2 传统并行开发环境 ........................................................................................ 5

1.3 分布式计算 ............................................................................................................... 6

1.3.1 分布式计算定义 ............................................................................................ 6

1.3.2 分布式计算研究现状 .................................................................................... 6

1.4 MapReduce概述 ....................................................................................................... 6

1.5 国内外关于MapReduce计算框架研究 .................................................................. 7

1.5.1 国外研究 ........................................................................................................ 7

1.5.2 国内研究 ........................................................................................................ 8

2 Hadoop与MapReduce ........................................................................................................ 9

2.1 Hadoop分布式计算框架产生背景 ......................................................................... 9

2.2 Hadoop的主要特点 ................................................................................................. 9

2.3 Hadoop子项目 ....................................................................................................... 10

2.4 MapReduce模型基本原理 ..................................................................................... 10

2.5 Google的MapReduce框架 ................................................................................... 11

2.6 在Hadoop上MapReduce的工作机制 ................................................................. 12

2.6.1 MapReduce的运行框架组件 ...................................................................... 13

2.6.2 MapReduce作业运行流程 .......................................................................... 14

2.6.3 进程和状态的更新 ...................................................................................... 15

2.6.4 Hadoop提供的3种作业调度 .................................................................... 16

2.6.5 MapReduce容错机制 .................................................................................. 18

3 Hadoop平台搭建 .............................................................................................................. 19

3.1 ubuntu12.04 ............................................................................................................. 19

3.2 VMware Workstation10 .......................................................................................... 19

3.3 HDFS ....................................................................................................................... 19

3.4 详细搭建过程 ......................................................................................................... 20

3.4.1 单机模式搭建过程 ...................................................................................... 20

3.4.2 伪分布模式搭建 .......................................................................................... 23

4 测试运行及分析 ................................................................................................................ 28

4.1 wordcount算例运行过程 ....................................................................................... 28

4.2 算例详细分析 ......................................................................................................... 30

4.2.1 并行计算方面 .............................................................................................. 30

4.2.2 分布式处理方面 .......................................................................................... 33

4.2.3 源码分析方面 .............................................................................................. 34

4.3 grep程序运行及分析 ............................................................................................. 35

4.4 Monte Carlo方法估算Pi(π)值 ......................................................................... 37

4.4.1 Monte Carlo方法定义及原理 ..................................................................... 37

4.4.2 对比测试分析及部分代码 .......................................................................... 37

4.5 关于完全分布式并行框架的研究分析 ................................................................. 42

结 论 .................................................................................................................................. 44

参 考 文 献 ............................................................................................................................ 45

致 谢 .................................................................................................................................. 46

篇五:《云平台实践》任务书

《云平台实践》实验任务书

一、 课程安排

使学生通过48学时的课程实践过程,了解云计算虚拟化概念,大数据存储和处理以及几种主要的云计算应用平台——Google的云计算平台和Amazon的AWS。

本课程学习结束后,学生应能自行用vmware workstation和KVM配置安装虚拟机,能进行Hadoop HDFS分布式文件系统的安装、配置和管理,利用MapReduce思想进行海量数据的处理。学会使用云计算的仿真工具CloudSim,在中CloudSim模拟器中创建数据中心,主机,虚拟机,任务等。应用调?a href="http://www.zw2.cn/zhuanti/guanyurenzuowen/" target="_blank" class="keylink">人惴ń行槟饣峙涞取?/p>

注:本实验任务书包含三部分内容(虚拟化部分,大数据部分,云计算模拟部分),每部分16学时。共48学时内容, 32学时课程可选做其中两部分内容。

二、基本要求 虚拟化部分:

(1)掌握利用vmware workstation安装虚拟机;

(2)掌握虚拟机实现上网的三种模式:桥接模式,host-only模式,NAT模式; (3)为虚拟机配置双网卡不同网段的IP地址

(4)掌握用KVM建立虚拟磁盘并在虚拟磁盘上安装虚拟机。

大数据部分

(1) 掌握Hadoop HDFS的伪分布模式和完全分布模式的安装、配置与管理 (2) 掌握Hadoop提交作业以及查询作业运行情况 (3) 理解Map-Reduce原理,能书写Map-Reduce程序

(4) 理解HDFS原理,能熟练地对HDFS中的文件进行管理 (5) 掌握Hbase的安装和配置

(6) 掌握Hbase的原理并能进行简单的shell操作

云计算模拟部分

(1)掌握云计算的基本概念和相关技术

(2)掌握主要的云计算应用平台,如Google的云计算平台和Amazon的AWS等 (3)掌握云计算平台的通用体系结构,以及其中的技术原理

(4)掌握云计算的仿真工具CloudSim的架构,原理以及安装配置。 (5)在仿真工具CloudSim上设计调度算法,并评估模拟结果。

三、任务要求及学时

1.安排:

四、成绩评定:

1、实习表现(纪律及考勤情况) 20分 2、现场评测 50分 3、实习报告 30分

五、报告格式:电子文档

目录

1、题目。 2、背景知识 3、详细设计过程 4、模拟测试结果 5、心得体会。

六、提交方式

提交报告电子文档与系统运行录像。系统运行录像应包含设计结果预览及由设计部分生成运行部分的过程,系统运行演示,整个录像时间5-10分钟。可使用Snagit、屏幕录像专家、Adobe Captivate等屏幕录像软件进行录制,如果添加音频解说可加分。

七、参考实验内容

字数作文