登录
首页 » Others » Spark开发指南

Spark开发指南

于 2020-12-01 发布
0 464
下载积分: 1 下载次数: 2

代码说明:

Spark开发指南.pdf本书参考Spark官方文档和源码,通过本书你将精通Spark的安装、配置、开发、监控和调优。Apache SparkSpark是伯克利 APMLab实验室精心打造的,力图在算法( Algorithms)、机器( Machines)、人( People)之间通过大规模集成,来展现大数据应用旳一个平台,其核心引擎就是 Spark,其计算基础是弹性分布式数据集,也就是RDD。通过Spark, MPLab运用大数据、云计算、通信等各种源,以及各种灵活的技术方案,对海量不透明的数据进行甄別并转化为有用的信息,以供人们更好的理解世界。 Spark已经涉及到机器学习、数据挖掘、数据库、信息检索、自然语言处理和语音识别等多个领域。Sparp ecological environment陡着 spark的日趋完善, Spark以其优异的性能正逐渐成为下一个业界和学术界的开源大数据处理平台。随着 Spark1.1.0的发布和 Spark生态圈的不断扩大,可以预见在今后的一段吋间内, Spark将越来越火热。spak生态圈以Spa为核心引擎,以HDFS、S3、 Tachyon为持久层读写原生数据,以 Mesos、YARN和自身携带的Standalone作为资源管理器调度job,来完成spak应用程序的计算;而这些spak应用程序可以来源于不同的组件,如 Spark的批处理应用、 Spark Streaming的实时处理应用、 Spark sρL的即席查询、 BlinkDB的权衝查询、MLib或 MLbase的机器学习、 GraphX的图处理等等。更多的新信息请参看伯克利 APMLab实验室的项目进展htps:/ mplab. cS. berkeley. edu/projects或者 Spark峰会信息htp:/ spark-summit org。Spark Spark MLlib GraphXSQL Streaming(machine(graph)learningApache SparkSparkSpark是一个快速的通用大规模数据丛理系统,和 Hadoop MapReduce相比更好的容锆性和内存计算高速,在内存中运算100倍速度于 MapReduce易用,相同的应用程序代码量要比 MapReduce少25倍提供了丰富的AP支持互动和迭代程序Spark大数据平台之所以能日渐红火,得益于 Spark内核架构的优秀·提供了支持DAG图的分布式并行计算框架,减少多次计算之间中间结果O开销·提供 Cache机制来支持多次迭代计算或者数据共享,减少开销*·RDD之间维护了血统关系,一旦 RDD fail掉了,能通过父RDD自动重建,保证了容错性·, RDD Partition可以就近读取分布式文件系统中的数据块到各个节点内存中进行计算使用多线程池模型来减少task启动开稍shuffle过程中避免不必要的sor操作采用容错的、高可伸缩性的aka作为通讯框架SparkStreamingSparkstreaming是一个对实时数据流进行高通量、容锴处理的流式处理系统,可以对多种数据源(如Kdka、Fume、Twitter、zero和TCP套接字)进行类似map、 reduce、join、 window等复杂操作,并捋结果保存到外部文件系统、数据库或应用到实时仪表盘Sparkstreaming流式必理系统特点有捋流式计算分解成一系列短小的批处理作业将失败或者执行校慢的任务在其它节点上并行执行较强的容错能力(基于RDD继承关系 Lineage)使用和RDD一样的语义Spark SQLSpark SQL是一个即席查询系统,可以通过SQL表达式、 HiveQL或者 Scala dsl在 Spark上执行查询。Spark SQL的特点·引人了新的RDD类型 SchemaRDD,可以象传统数据库定义表一样来定义 SchemaRDD, SchemaRDD由定义了列数据类型的行对象构成。· SchemaRDD可以从RDD转换过来,也可以从 Parquet文件读入,也可以使用 Hive QL从Hve中获取·在应用程序中可以混合使用不同来源的数据,如可以将来自 HiveQL的数据和来自sQL的数据进行jn操作。·内嵌 catalys优化器对用户查询语句进行自动优化MLlibMLib是Spak实现一些常见的机器学习算法和实用程序,包括分类,回归,聚类,协同过滤,降维,以及底层GraphXGraphX是基于 Spark的图处理和图并行计算AP。 GraphX定义了一个新的概念:弹性分布式属性图,一个每个顶点和边都带有属性的定向多重图;并引人了三种核心RDD: Vertices、 Edges、 Triplets;还开放了一组基本操作(如 subgraph,joinvertices, and mapReduce Triplets),并且在不断的扩展图形算法和图形构建工具来筒化图分析工作生态圈的应用Spark生态圈以 Spark为核心、以RDD为基础,打造了一个基于内存DAG计算的大数据平台,为人们提供了一栈式的数据处理方奚。人们可以根据不同的汤景使月主要应用场景用户曲像的建立用户异常行为的发现社交网络关系洞察用户定向商品、活动推荐spak运维相关安装配置、监控等,请求参考《 Spark运维实战》graphiteum install -y bitmap bitmap-fonts-compat Django django-tagging fontconfig cairo python-devel python-memcachedpython-twisted pycairo mod python python-Idap python-simplejson memcached python-zope-interface mod wsgipython-sqlite2Spark BaseSpark开发环境Spark本身是由 scala语言开发的,提供了三种语雷接口: Scala、Java、 Python。根据自己的喜好可以使用相应语言的开发工具。本书使用 scala语言做为开发Spak应用的语,采用 Eclipse为主要的开发工具主要介绍了两个流行的开发工貝: Eclipse、 Intell IDEA。JDK安装配置下载官方网址:htp/www.oracle.com/technetwork/javaljavase/downloads/jdk7-downloads-1880260hml选择好操作系统版本,32位操作采统选择带j586的安装文件;64位操作系统选择菅×64的安装文件。Linux操作系统推荐下载 tar. gz格式的安装文件, Window当然也只有exe格式的文件。Linux下安装解压tar -zxvf jdk-7ug-linux-1586. tar. gz-C/opt/In-/opt/jdk170_09 /opt/jdk设置环境变量用ⅵ编辑配置文件:/etc/ profileexport JAVA HOME=/ pt/jdkexport CLASSPATH=$JAVA HOME/lib/dt jar: SJAVA HOME/lib/tools. jarexport PATH= $JAVA HOME/bin: s PATH保存退出按Esc然后输入Wq使配置生效source /etc/profileWindows下安装选择好操作系统版本是32还是64,解压双击进行安装一路下一步,便可安装成功。设置环境变量测试是否成功命合行输人Java -versIon如果出现下面提示说明成功

下载说明:请别用迅雷下载,失败请重下,重下不扣分!

发表评论

0 个回复

  • 跳频通信系统的研究与Matlab仿真
    跳频通信系统的研究与Matlab仿真,跳频通信技术具有较强的抗干扰能力,因此一直是扩频通信技术研究中的一个重点。在阐述跳频通信基本原理和实现方法的基础上,利用Matlab提供的可视化工具Simulink建立了跳频通信系统仿真模型,详细讲述了各模块的设计。
    2021-05-06下载
    积分:1
  • 基于matlab GUI的串口读写
    基于matlabGUI界面编程实现的串口数据读写工具,有良好的GUI界面,可显示读取数据的波形
    2020-11-27下载
    积分:1
  • 强大的完善的 活动抽奖系统(适合各单位搞的活动用)
    创意点一: 实现了一个根据人数自动变化抽奖屏幕的抽奖圆盘,抽奖通过圆盘动态显示,能够让台下观众看清楚转盘的情况,增加刺激性以及参与度。创意点二: 不仅实现转盘的动态显示,而且还有一个动态显示转盘转到什么名单的地方,这样做的目的是追踪圆盘的轨迹,且增加了系统的刺激性。创意点三: 这个抽奖系统,以及抽奖形式(据本人了解),在生活中常有出现,但是并没有人尝试开发相应的抽奖系统,故说我们实现了创意,发掘了生活中的创意点以及充分体现了我们的激情以及创造性。创意点四: 为了能够让这个系统能够让不同的单位显示,我们故意添加了背景,从而可以让不同单位在使用本系统的时候添加属于自己的标志。
    2020-12-02下载
    积分:1
  • 以邻接表创建图实现图的基本操作
    以邻接表为存储结构,实现连通无向图的深度优先和广度优先遍历。以用户指定的结点为起点,分别输出每种遍历下的结点访问序列。
    2020-12-11下载
    积分:1
  • 小波包分解序,可以运行的,你值得拥有!
    自己构造一个数字信号,然后分解成3层,自己可以把信号换成自己的实验数据,进行分解就可以啦。可以的话,求评论。
    2020-07-02下载
    积分:1
  • Microsoft Office Visio 科学图形包
    官方下载的Visio科学图形包测试支持各版本Visio,已解压处理,直接复制到我的形状文件夹即可使用,压缩包内附详细安装教程。内含近六百个科学图形,涵盖了目前中学数、理、化三科教学中常用的各种形状和图形等。这些图形被划分为如下三个学科、十一大类、约三十个子类: - 数学 代数:常用函数,指数、对数和幂函数,抛物线和双曲线 函数图表:图表,集合 几何:立体几何,平面几何,解析几何,圆和椭圆 三角学:角,三角函数 - 物理 电磁学:磁学,电气实验设备,电路图 光学:光波和光源,平面镜、透镜和棱镜 力学:运输工具,运动,
    2021-05-06下载
    积分:1
  • Java图形界面开发—学生信息管理系统 完整源码
    学生信息管理系统,使用Java开发。1、登录界面可以进行登录操作。有俩种权限选择。分别跳转到不同的界面。2、使用了事件监听、Java操作SQLserver数据库等知识。3、图形化界面中使用了JTable等组件,将查询结果显示在表格中。详见我的博客:http://blog.csdn.net/qq_25827845/article/details/50932501
    2020-12-06下载
    积分:1
  • AD元件库常用封装
    altium designer 常用元件库,含有单片机8051.IntLib,AD转换.lib,CMOS系列.Lib,数码管光耦.SCHLIB,单片机及相关.SCHLIB,TTL74系列IC.SCHLIB,IC.SCHLIB,场效应管.LIB,可控硅.Lib,LM317-337封装.PcbLib,开关.PcbLib,数码管.PcbLib,液晶显示器.PcbLib,继电器.PcbLib,阻容.PcbLib,集成块.PcbLib,常用元件封裝庫(pcb).PCBLIB,变压器.PcbLib,4位共阳极数码管.SchLib,J继电器.SchLib,LCD显示.SchLib,OP光耦.SchLib,O
    2021-05-07下载
    积分:1
  • C# MVC根据Word模板导出Word
    C#MVC开发的根据word模板导出word的功能,分为三部分。功能很完善,我也是下载回来的,下载回来不能用,我又改过了,保证可用的。环境是VS2013,MVC4.保存下来,分享给各位。
    2020-12-06下载
    积分:1
  • 基于MATLAB的循环频谱检测算法
    主要是用MATLAB对信号进行仿真,采用BPSK调制方式,用周期图法计算循环频率
    2020-12-05下载
    积分:1
  • 696518资源总数
  • 105622会员总数
  • 12今日下载