华为FusionInsight HD 2.7 技术白皮书.pdf
华为FusionInsight HD 2.7 技术白皮书,详细介绍了华为版Hadoop的各个组件功能。华为FusionInsight是华为企业级大数据存储、查询、分析的统一平台。华为 Fusionlnsight hd27技术白皮书日录目录1简介…1.1 Fusionlnsight hD概述1.2 FusionInsight HD组件介绍.2重点组件介绍52.集群管理 Manager622分布式文件系统HDFS23统一资源管理和调度框架YARN24分布式批处理引擎 Mapreduce.25分布式数据库 HBase2.6数据仓库组件Hive27分布式内存计算引擎 Spark28全文检索组件Solr.29批量数据集成 Loader( Scoop)….122.10实时数据采集 Flume142.11流式事件处理( Storn)…2.11.1 Storm2.11.2 StreamCQL…2.11.3 Flink2.12分布式高速缓存 Redis2.|3分布式消息队列 Kafka2.14作业编排与调度 Oozie...........212.15数据继承入凵Hue文档版本01(2017-07-30)华为专有和保密信息版权所有c华为技术有限公司华为 Fusionlnsight hd27技术白皮书1简介简介1.1 FusionInsight HD概述1.2 FusionInsight hD组件介绍文档版本01(2017-07-30)华为专有和保密信息版权所有c华为技术有限公司华为 FusionInsight hd27技术白皮书1简介11 FusionInsight hD概述FusionInsight是华为仝业级大数据存储、查询、分析的统一平台,能够帮助全业快速构建海量数据信息处理系统,通过对巨量信恳数据实吋与非实时的分析挖掘,发现全新价值点和企业商机应用层REST API数据服务明细影像推荐/伪控关系轨迹Data世像ServiceREST API/SQL/SDKloaderMe知认FormerManager数据分析Data Farm数据集成信数据挖识、服务框智慧配置管理性能管理告警管理数据处理发全管理DataoS hadoop Spark2 STORM(Flink LibrA租户管理灾备管理FusionInsigh解决方案由5个子产品 FusionInsight hD、 Fusioninsight libra、FusionInsight miner、 FusionInsight Farmer和1个操作运维系统 FusionInsight manager构成FusionInsight HD:企业级的大数据处理环境,是一个分布式数据处理系统,对外提供大容量的数据存储、分析查询和实时流式数据处理分析能力。usionInsight HD包括 Zookeeper、 Hadoop、 HBase、 Loader、 HBase、Hive、Hue、 Oozie、 Phoenix、Solr、 Redis、 Spark、 Streaming、 Kafka、E、 Flink等组件。FusionInsight miner:个业级的数据分析平台,基于华为 FusionInsight hd的分布式存储和并行计算技术,提供从海量数据中挖掘出价值信息的平台。FusionInsight Farmer:企业级的大数据应用容器,为企业业务提供统一开发、运行和管埋的平台。Fusionlnsight Manager:企业级大数据的操作运维提供,提供高可靠、安全、容错、易用的集群管理能力,支持大规模集群的安装部署、监控、告警、用户管理、权限管理、审计、服务管理、健康检査、问题定位、升级和补丁等功能FusionInsight librA:企业级的MPP关系型数据库,基于列存储和MPP架构,是为面向结构化数据分析而设计开发的,能够有效处理PB级别的数据量。 FusionInsightLibrA在核心技术上跟传统数据库有巨大差别,可以解决很多行业用户的数据处理性能问题,可以为超大规模数据管理提供高性价比的通用计算平台,并可用于支撑各类数据仓库系统、BⅠ( Business intelligence)系统和决策支持系统,统一为上层应用的决策分析等提供服务。文档版本01(2017-07-30)华为专有和保密信息版权所有c华为技术有限公司华为 FusionInsight hd27技术白皮书1简介12 FusionInsight hD组件介绍数招外析数据集成菜群理款据挖握数据挖掘处理Mahout(on MRMI I ib(on Spark)ahx款什理作业调应DSL领域描述语U。2e枇处互询KV面流式杏诈HiveparksQLRedisStreamcQL批量分市式计算引Loade故障管卫七处理流处理附件处理MapReduceFlinkstorm实时采性能管理分布式资源管Y消思队列安仝售翅Kalka分布式存储雪NOSQL数招库按素引≤QL行惴格式租户管理上传下载FtnonHDFSOROPalyueLCai bun De莫分布式文件系统备份曾理HDFSFusionInsight hd需要对廾源组件进行封裝和增强,对外提供稳定的大容量的数据存储、查询和分析能力。各自组件提供功能如下Manager:作为运维系统,为 I FusionInsight hD提供高可靠、安全、容错、易用的集群管理能力,支持大规模集群的安装/级/补丁、配置管理、监控管理、告警管理、用户管理、租户管理等。HDFS: Hadoop分布式文件系统( Hadoop Distributed File System),提供高吞吐量的数据访问,适合大规模数据集方面的应用。HBase:提供海量数据存储功能,是一种构建在HDFS之上的分布式、面向列的存储系统。Oozie:提供了对开源 Hadoop组件的任务编排、执行的功能。以 Java Web应用程序的形式运行在 Java servlet容器(如: Tomcat)中,并使用数据库来存储工作流定义、当前运行的工作流实例(含实例的状态和变量)。Zookeeper:提供分布式、高可用性的协调服务能力。帮助系统遷免单点故障,从而建立可靠的应用程序Redis:提供基于内存的高性能分布式KV缓存系统。Yarn: Hadoop2.0中的資源管理系统,它是一个通用的资源模块,可以为各类应用程序进行资源管理和调度。Mapreduce:提供快速并行处理大量数据的能力,是一种分布式数据处理模式和执行环境。Spark:基于内存进行计算的分布式计算架Hive:建立在 Hadoop基础上的井源的数据仓库,提供类似SQL的HⅤeQL语言操作结构化数据存储服务和基本的数据分析服务。Loader:基 J Apache Scoop实巩 FusionInsight hD与关系型数据库、p/sp文件服务器之间数据批量导入导出工具:同时提供 Java api/ shell!务调度接口,供第三方调度平台调用。●Hue:提供了开源 Hadoop绀件的 WebUI,可以通过浏览器操作HDFS的目录和文件,调用 Oozie米创建、监控和编排工作流,可操作 Loader组件,査看Zo< eeper集群情况。文档版本01(2017-07-30)华为专有和保密信息版权所有c华为技术有限公司华为 FusionInsight hd27技术白皮书1简介Flume:一个分布式、可靠和高可用的海量日志聚合系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Fume提供对数据进行简单处理,并写入各种数据接受方(可定制)的能力。●Solr:一个髙性能,基于 Lucene的全文检索服务器。Solr对 Lucene进行了扩展,提供比 Lucene更为肀富的查询语言,同时实现」可配置、可扩展,并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文检索引擎Kafka:一个分布式的、分区的、多副本的实时消息发布-订阅系统。提供可护展、扃吞吐、低延迟、高可靠的消息分发服务Storm:一个分布式、可靠、容错的实时流式数据处理的系统,并提供类SQLtreaInCQL)的查询语言Fink:分布式的、高可用的、能保证 Exactly Once语义的针对流数据和批数据的处理引擎SparkSQL:基于 Spark引擎的高性能SQL引擎,可与Hive实现元数据共享。Mahaut:提供基于 Mapreduce的数据挖掘算法库MLLib:提供基于 Spark的数据挖掘算法库phx:提供基于 Spark的图处理算法库文档版本01(2017-07-30)华为专有和保密信息版权所有c华为技术有限公司华为 Fusionlnsight hd27技术白皮书2重点组件介绍2重点组件介绍21集群管理 Manager22分布式文件系统HDFS2.3统一资源管理和调度框架YARN24分布式批处理引擎 MapReduce2.5分布式数据库 HBase2.6数据仓库组件Hive27分布式内存计算引擎 Spark28全文检索组件Solr2.9批量数据集成 Loader( Scoop)210实时数据采集 Flume2.ll流式事件处理( Storm)212分布式高速缓存 Redis213分布式消息队列 Kafka2.14作业编排与调度 Oozie2.15数据继承入口Hue文档版本01(2017-07-30)华为专有和保密信息版权所有c华为技术有限公司华为 Fusionlnsight hd27技术白皮书2重点组件介绍21集群管理 ManagerManager是 FusionInsight H的运维管理系统,为部署在集群内的服务提供统一的集群管理能力。 Manager支持大规模集群的安裝部署、性能监控、告警、用户管理、权限管理、审计、服务管理、健康检査、日志采集、升级和补丁等功能图2-1 Manager逻辑架构w已妇UP SereIAMCEPPMS匚就动aLdapOM M AgentNode AgentNTP ClerDHTLFusionInsight ManagerFusionInsight Manager由OMS和 NodeAgent组成:●OMS:操作维护系统的管理节点,OMS·般有两个,互为主备。NodeAgen:操作维护系统中的所有被管理节点,每个节点上一个。表2-1业务模块说明模块名称描述Web Service是一个部署在 Tomcat下的web服务,提供 Manager的htts:接口,用于通过浏览器访问 Manager。同时还提供基于 Syslog和SNMP协议的北向接入能力ControllerManager的控制中心,负责汇聚来自集群中所有节点的信息,统一问管理员展示,以及负责接收来自管理员的操作指令,并且依据操作指令所影响的范围,向集群的所有相关节点同步信息nodeAgent存在于每一个集群节点,是 Controller对部署在该节点上组件做切操作的代理。代表本节点上部署的所有组件与 Controller交互,实现整个集群多点到单点的汇聚IAM负责记录审计日志。在 Manager的U上每一个非查询类操作,都有对应的审计日志文档版本01(2017-07-30)华为专有和保密信息版权所有c华为技术有限公司华为 Fusionlnsight hd27技术白皮书2重点组件介绍模块名称描述PMS性能监控模块,搜集每一个OMA上的性能监控数据并提供査询CEP汇聚功能模块。比如将所有OMA上的磁盘已用空间汇总成一个性能指标FMS告警模块,搜集每一个OMA上的告警并提供查询OMMAgent各节点上面性能监控和告警的Agen,负责收集该 Agent Node上的性能监控数据和告警数据CAS统一认证中心,登录 Web service时需要在CAS进行脊录认证,浏览器通过URL自动跳转访问CASAOS权限管理模块,管理用户和用户组的权限OMS Kerberos提供单点登录及 Controller与 Nodc agent间认证的功能OMS Ldap在集群安装前为用广认证提供数据仔储,在集群安装后作为集群中Ldap的备份DatabaseManager的数据库,负责存储配置、监控、告警等信息NTP负责集群内部各节点与OMS节点之向的时钟同步和OMS节点与外部时钟源之间的时钟同步。22分布式文件系统HDFSHDFS是 Hadoop的分布式文件系统,实现大规模数据叮靠的分布式读写。HDFS针对的使用场景是数据读写具有“一次写,多次读”的特征,而数据“写”操作是顺序写,也就是在文件创建时的写入或者在现有文件之后的添加操作。HDHS保证一个文件在个时刻只被一个调用者执行写操作,而可以被多个调用者执行读操作。图2-2分布式文件系统HDFSHDFS ArchitectureMetadata(Name, re)Metadata. opsNamenode/home/foo/data. 3Black opsRead DatanodesDatanodesReplicationBlocksRack 1WriteRack 2文档版本01(2017-07-30)华为专有和保密信息版权所有c华为技术有限公司
- 2020-12-07下载
- 积分:1
RS纠错编码原理及其实现方法.pdf
RS纠错编码原理及其实现方法。Zhengzhou Oriole Xinda Electronic Information Cc., Ltd前言随着越来越多的系统采用数字技术来实现,纠错编码技术也得到了越来越广泛的应用。RS码既可以纠正随机错误,又可以纠正突发错误,具有很强的纠错能力,在通信系统中应用广泛。近些年来,随着软件无线电技术的发展,RS编码、译码一般都在通用的硬件平台上实现。通常采用基于FPGA的ⅦHDL编码硬件实现,或者在DSP、单片机上用C和汇编编程软件实现。RS纠错编码涉及的领域很广,特别是设计到很多数学知识。这对那些对数学不太感冒的工程技术人员来书是个不小的挑战。尽管讲RS编码的书籍很多但是那些书都是采用循序渐进,逐步引人的方式从汉明码到循环码,从循环码到BCH码,BCH码再引入悶S码。对亍工程技术人员他们需要的是简明扼要的讲解,和详细的实现方法。本人写这篇文章的宗旨就是尽量最简单的语言最简短的篇幅来讲RS纠错编码原理,把重点来放在实现方法上。为了便于读者仿真,本文采样MLAB程序实现,程序尽量符合硬件C语言写法,读者经过简单修改即可应用到工程中去。本文读者对象本文是为那些初识瑙编码的学生、工程技术人员而写,并不适合做理论研究,如果你是纠错编码方面的学者、专家,那么本文并不适合你。由于作者水平有限,错误在所难免,恳请读者批评指正。不得更改陈文礼2008-01于郑州Zhengzhou Oriole Xinda Electronic Information Cc., Ltd必备的一些代数知识1、在纠错编码代数中,把以二进制数字表示的一个数据系列看成一个多项式。例如二进制数字序列1010111,可以表示成:M(x)=ax+a5x0+a5不5+a+4 TasK +ax+a,x+ank式中的x表示代码的位置,或某个二进制数位的位置,X前面的系数表示码的值。若a;是一位二进制代码,则取值是0或1。dM()称为信息代码多项式多项式次数称系数不为0的x的最高次数为多项式/(x)的次数,记为Of(x)2、域域在R编码理论中起着至关重要的作用。简单点说域GF(2)有2设2个符号[0,n,a2…22且具有以下性质域中的每个元素都可以用a",a,a2,om的和来表示。a←la为本原多项式p(x)的根。运算规则有:在纠错编码运算过程中,加减、乘和除的运算是在伽罗华域中进行。现以GF(2)域中运算为例:加法例:a+a=0010+0110101(模2加法相当于0005与011或减法运算与加法相同乘法例:a·a0=a(8+10)modl5除法例:cs/a0=a-2=a-2+5=a不理解没关系,下面的例子也许对你有帮助。例:mF=4,p(x)=x4+x+1求GF(2")的所有元素因为a为p(x)的根得到a4+a+1=0或a4=a+1(根据运算规则)Zhengzhou Oriole Xinda Electronic Information Cc., Ltd由此可以得到域的所有元素元素二进制对应十进制对应码值000000101000a+100l⊥0110a(a+1)=a+a(mod p(a))12a(a+a=a+a(mod p(a)1011a(a+l(modula))+a+1)10C(a+1=a+a(mod p(a )a(a23+a)a+I(mod p(a)1110a(a+a+D=aa+a(modp(a)tatI(mod p(a))11a(a3+a2+a+1)=a34a2+1(modp(a)1001a(a+a+1=a+l(mod p(a)a(a+1=l(mod(a))由此可以看岀本原多项式是求解域的全部元素的关键。读者也许会有这样的疑问我们如何得到p(x)呢?本原多城式p(x)的特性是2+得到的余式等于0O(X由于作者也是工程技术人员,具体怎么得到p(x),也没有深究过。Zhengzhou Oriole Xinda Electronic Information Cc., Ltd作者在设计RS编码时候都是根据 MATLAB指令rsgeηpoly来得到p(x)。其格式为 rsgenpoly(n,k)参数n为码长一般n=2"-1,k为信息码元个数。例如m4,码长n=15,信息码元长度为9GF(2)的本原多项式可以根据指令>>rsgenpoly(15, 9)得到ans= GF(2 4)array. Primitive polynomial =D 4+D+1 (19 decimal)有读者来信问:我要做一个(158的RS编码,在 MATLAB中输入命令 rsgenpoly(158,128),结果MAB报错Error using =- rsgenpolyN must equal 2m-1 for some integer m这里做一下解释我们S编码时普先要根据码长选取mλ选择原则是2若码长为6那么我们可以选择n=8, rsgenpey命令的第少个参数必须为2"-1,第二个参数司以随便选择只要小于2”-1就形了在此给出m∈(2,16)的所有本原多项式(m=2)P[m+1]={1,1,1}/米1+x+x3*/P[m+1]-{1,1,0,1}/米1+x+x4*/P[m11]={1,1,0,0,1}/米1+x2+x5*/P|m+1={1,0,1,0,0,1};Zhengzhou Oriole Xinda Electronic Information Cc., Ltd(m=6)/米1+x+x6*/P[m+1]={1,1,0,0,0,0,1}7)/来1+x3+x7*P[m+1]={1,0,0,1,0,0,0,1}(m=8)/米14x2+x31x4+x8*/P[m+1]-{1,0,1,1,1,0,0,0,1/*1+x4+x9半P[m1]={1,0,0,0,1,0,0,0,(m=10)/1+x3+x10*/P|m+1={1,0,0,1,0,0,0,0,/*1+x2+x11P[m+1]={1,0,0,0,0,0,0,1}(m=12)/*1+x+x4+x6+x12P[m+1]-{1,1,0,0,、1,0,0,(m=13)/*1+x+x^3+x4+x^13*/P[m+1]={1,1,0,1,1,0,0,00,0,1};(m=14)/*1+x+x6+x10+x14来P[m+1]={1,1,0,0,0,0,1,0,0,0,1,0,0,0,1}(m=15)/米14x+x15*/P[m+1]={1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,1};(m=16)/*1+x+x3+x12+x16*/P[m+1]={1,1,0,1,0,0,0,0,0,0,0,0,1,0,0,0,1};Zhengzhou Oriole Xinda Electronic Information Cc., Ltd二、线性分组码的一些基本概念1、线性分组码一般用(n,)或(n,k,d)表示n为码长,k为信息码元的数目,n-k为监督码元的数目。d表示码元距离。定义:两个码组上对应位置上数字不同的个数称为码组的距离。发送的码字C=(1,C2C3,…C接收的矢量r=(,2,信道错误图样:e=c+r例如c=(1,1,0,0,0)(1,0,001)e=(1+1,1+0,0+0,0+0,0+1)(0,1,0,0,1)从而可以看出从左端起第2位和第5位是错误的2、校验矩阵概念码长为n,信息数为k,监督数为r。这样的一组码形式为:m:m2,P,P2Pm表示第个信息码,P表示第j个校验码各个校验码可从下列线性方程组求得hm+h2m2+…+n+1B1+012+0h2m1+2m2+…+h2m+0p1p20hmn+h,2m2+…+hm+O+0+…+1p,=0式中h;是常数校验方程组可写成校验矩阵100h21h2…,h2k010h000该矩阵具有r行和n列故式(1-1)可以写成c=0或c=08Zhengzhou Oriole Xinda Electronic Information Cc., LtdH矩阵称为[n,k,r码的校验矩阵。发送矢量为C接收矢量为F若rH≠0则说明接收到的码有错误。设错误图样为e则可写成以下关系式r=c+e为了纠错必须知道那些位上存在错误。这可由校正子(又称伴随式)s来确定s=rH=cH +eh=eh译码器的主要任务就是如何从中得到最像e的错误图样e从而译出c=r-e设第讠个是错误的因此e=(00..0第个有错误s=rH=(00…0、100000)00计算出的矢量示出i是出错误的位置。3、生成矩阵概念生成矩阵G,它是一个k行,n列的矩阵若已知信息组m,通过生存矩阵可求得相应的码字。c=mxG(m是k个信息元组成的信息组)这个应该比较容易理解,在此就不做过多解释。、RS码的一些重要性质1、RS码生成多项式:码长n=2”-1,监督元数目r=n-k=2t,能纠正t个错误。Zhengzhou Oriole Xinda Electronic Information Cc., Ltd定义:在(n,k,d)的RS码中,存在唯一的n-k次多项式g(x),使得每一个码多项式c(x)都是g(x)的倍式。g(x)称为n,k,d]RS码的生成多项式一般情况下g(x)=(x-a)(x-a2)…(x-a2)2、定理:在GF(2m)中,每个非0元素(1,a,a2…a22)均满足x2=1,反之x21-1=0的根必在GF(2")中。所以x-1=(x-a)(x-a)x3、RS码的校验多项式由于生成多项式g(x)是x-1的因式g(rh(g(x)为n-k次多项式,则h(x)为k次多项式,k3x+g)hx+…+x+4)由右式可以看出x"1,x2,x的系数均等于0即gg0010h1+g1bo=0g0h+g1h11+…+8nkh2(2k)=0∴.+n-kk-10n-kk式中g0+81h1+…+8nkh1(n=k)(表示X的系数10
- 2020-12-08下载
- 积分:1