神策数据-大数据分析
大数据解决方案,用于网站、非BI的大数据分析解决方案。前言:大数据时代来临大数据时代已经到来,不同于以往的概念和趋势层面,行业领导者们(尤其是互联网、金融、零售、企业级服务等行业)在这一领域不断锐意进取,积极应用海量数据的采集和分析,实现端到端的深度洞察,调整战略和业务决策,改善核心业务运营,构建差异化竞争优势,向着以数据驱动为核心的方向前进Gartner预测,到2020年,大数据将成为主流的嵌入式技术,并被视为常规产品的一部分。麦肯锡在对200多家不同类型公司的实际调研中发现,无论B2B还是B2C公司都在通过数据驱动业务增长,其中B2B领域中,在数据驱动下的B2B领先企业的收入增长能力是普通企业的5倍、盈利能力高8倍、股东整体回报率高2倍。数据驱动能力正在成为企业重要变革和核心竞争力。2017年,随着机器学习、人工智能、物联网等技术的应用深化,必将推动大数据领域新一轮爆发式发展。走在前沿的领导企业和行业新锐,将进一步聚焦如何高效利用企业内外部产生的海量数据,拒绝“拍脑袋”,一切用数据说话!前25%的B2B领先企业其他的B2B企业5X~8X2X4.3%13.5%18.1%10.3%0.8%1.8%业绩增长利润增长股东回报率数据来源: McKinsey Digital Quotient, Capital IG目录公司简介01什么是数据驱动-02什么是用户行为分析03企业数据分析面临的挑战04神策分析(SA)是什么05神策分析(SA)的产品特点06产品架构图07案例精选互联网金融08消费电子16移动出行20企业服务24电子商务32传媒娱乐36医疗健康52公司简介Helo,Doer!你好,先行者!“数据源乃大数据之根基。管理数据源如扎根土壤,根基稳固方能避免“空中楼阁”。这是我在大数据行业工作近十年的最大心得,也是神策数据服务企业的核心理念驱动决策并未充分发挥大数据的全部价值,让产品智能化更代表行业发展方向。目前大部分数据分析产品可满足企业在决策层面的分析需求。在未来,随着大数据在行业应用的深化,必将更加依赖强健的数据仓库和灵活的平台开发能力,通过基础数据叠加算法模型,从而驱动产品智能化。”一神策数据创始人&CEO桑文锋谈数据驱动两点心得我们是谁神策数据( Sensors Data),隶属于神策网络科技(北京)有限公司,是一家专业的大数据分析服务公司,致力于帮助客户实现数据驱动●我们做什么神策分析( Sensors Analytics,以下简称SA),是针对企业级客户推出的深度用户行为分析产品,支持私有化部署、基础数据采集与建模、PaS平台深度开发,提供大数据相关咨询服务和完整的行业解决方案。我们的团队团队核心成员—一桑文锋(创始人&CE),曹犟(联合创始人&CTo),刘耀洲(联合创始人&C○O),付力力(联合创始人&首席架构师)均来自百度大数据部,从零构建了百度的日志分析大数据处理平台,在大数据分析领域有10年积累,实战经验丰富,数据分析技术领先。●资本的支持公司成立以来,获得线性资本、明势资本、薛蛮子的天使轮投资,红杉资本、DCM分别领衔的A、B两轮持续投资。●我们的服务神策数据积累了聚美优品、广发证券、融360、秒拍、ofo共享单车、百联集团等300余家付费企业用户的服务和客户成功经验,为客户提供全面的指标梳理、数据模型搭建等专业的咨询、实施和技术支持服务。01什么是数据驱动定义:通过数据采集、数据建模、数据分析,帮助企业高效获取数据并进行多维度、海量、实时的数据分析,从而驱动决策和产品智能化。驱动决策●运营监控拉新:吸引更多的新用户,不只是关心用户触达,还要关心用户激活。留存:让已有用户重复地使用产品,留存是节流,好的留存才让拉新有意义。变现:一个不能变现的产品不是好产品●产品改进构建:开发新功能。测量:对新功能的表现进行数据测量。学习:通过分析得出结论,对新功能进行调整,或转化为新功能。●商业决策客户分布,画像描述,指导商业扩张战,收购并购等战略决策。驱动产品智能机器学习、人工智能、物联网等新技术的最佳实践,必须建立在企业对大数据的应用能力之上,唯有打好数据基础并充分利用,才能实现产品智能化。什么是用户行为分析定义:通过获取用户行为数据,进行多维度、精细化的统计分析,从而还原用户使用场景。价值:用户行为分析是企业实现数据驱动的前提,丰富的用户行为数据为企业的运营改进、产品优化和商业决策提供基础。做好用户行为分析的两大关键因素数据采集要大、全、细、时大:宏观的大,而非数据量的大。全:多种数据源(客户端、服务器、数据库、历史数据导入)。细:多种数据维度、指标、属性。时:时效性——秒级处理,实时更新。有效的用户行为事件模型—事件( Event)+用户(User)规范并结构化用户行为。Who:参与此事件的用户事件 EventWhen:事件发生的实际时间Where:事件发生的地点事件模型How:用户进行事件的方式What:描述用户所做的事件的具体内容记录和收集用户的长期属性( User Profile)用户User通过ID与相关的 Event关联0203企业数据分析面临的挑战我国大多数企业的数据化建设道路仍刚刚起步,呈现以下特点企业内外部数据爆发式增长,企业对大数据价值认知程度不断提升数据采集缺失或埋点无序混乱,数据分析的工具运用能力、行业经验有限。Q数据安全问题成为企业数字化进程的最大顾虑。在实际的业务应用中,数据分析方面的常见问题¤目拍脑袋:无数据分析支撑,依靠“拍脑袋”决策。分析浅:有数据仪表盘,但统计内容泛泛,难以深挖真实原因。效率低:多业务线的数据分析需求旺盛,工程师团队手工“跑”表,效率低下,错过业务最佳决策时机不匹配:工程师从系统导出的报表与业务的需求不匹配,造成“鸡同鸭讲”数据孤岛:CRM、ERP等业务系统数据无法打通,且跨部门、多业务线数据完全独立,无法全局分析。神策分析(SA是什么神策分析是针对企业级客户推岀的深度用户行为分析产品,支持私有化部署、基础数据采集与建模、PaS平台深度开发,提供大数据相关咨询服务和完整的行业解决方案。无论是新兴互联网公司,还是正在进行数字化转型的企业,神策分析(SA)帮助您勾勒精准用户画像、有效评估营销效果、分析运营活动、优化产品体验,真正实现数据驱动。勾勒精准用户画像有效评估营销效果分析运营活动优化产品体验0405神策分析(SA)的产品特点可私有化部署基础数据采集与建模不仅提供Sas公有云部署,多种埋点方式支持客户端、服更支持私有化部署模式,打造务器日志、业务数据库、第三企业专属的数据平台,消除数方服务、历史数据导入等全端据安全顾虑。数据采集,无死角的数据采集是一切分析的前提。用户分群,精益分析多维度分析通过用户分群,进行目标市场轻松上手事件、漏斗、留存的细分,实现精细化和差异化访问等分析模型,灵活组合、用户运营。秒级响应,探索不同业务中的关键行为,洞察指标背后掩藏的问题。PaaS平台深度开发行业方案完全开放的数据接入,实时访为电商、互联网金融、企业服问数据,无缝对接内部业务系务、视频直播、游戏、在线教666统,满足灵活多变的深度分析育等行业打造了专业的用户行需求。为解决方案,快速开启您的数据驱动之旅。
- 2020-12-03下载
- 积分:1
Google word2vec算法 数学原理
文档是 word2vec 算法 数学原理详解。word2vec是google的一个开源工具,能够仅仅根据输入的词的集合计算出词与词直接的距离,既然距离知道了自然也就能聚类了,而且这个工具本身就自带了聚类功能,很是强大。32预备知识本节介绍word2v中将用到的一些重要知识点,包括 sigmoid函数、 Bccs公式和Huffman编码等821 sigmoid函数sigmoid函数是神经网络中常用的激活函数之一,其定义为1+e该函数的定义域为(-∞,+∞),值域为(0,1).图1给出了 sigmoid函数的图像0.56图1 sigmoid函数的图像sigmoid函数的导函数具有以下形式(x)=0(x)1-0(x)由此易得,函数loga(x)和log(1-0(x)的导函数分别为log a(a)-1 a(a),log(1 o(a))l-a(a),(2.1)公式(2.1)在后面的推导中将用到32.2逻辑回归生活中经常会碰到二分类问题,例如,某封电子邮件是否为垃圾邮件,某个客户是否为潜在客户,某次在线交易是否存在欺诈行为,等等设{(x;)}温1为一个二分类问题的样本数据,其中x∈Rn,∈{0,1},当v=1时称相应的样本为正例当v=0时称相应的样本为负例利用 sigmoid函数,对于任意样本x=(x1,x2,…,xn),可将二分类问题的 hypothesis函数写成h(x)=o(6o+b1x1+62+…+bnxn)其中θ=(0,61,…,On)为待定参数.为了符号上简化起见,引入x0=1将x扩展为(x0,x1,x2,……,xn),且在不引起混淆的情况下仍将其记为ⅹ.于是,he可简写为取阀值T=0.5,则二分类的判别公式为ho(x)≥0.5:X)=0,ha(x)6),可分别用000001、010、011、100、101对“A,E,R,T,F,D”进行编码发送,当对方接收报文时再按照三位一分进行译码显然编码的长度取决报文中不同字符的个数.若报文中可能出现26个不同字符,则固定编码长度为5(25=32>26).然而,传送报文时总是希望总长度尽可能短.在实际应用中各个字符的出现频度或使用次数是不相同的,如A、B、C的使用颗率远远高于X、Y、Z,自然会想到设计编码时,让使用频率高的用短码,使用频率低的用长码,以优化整个报文编码为使不等长编码为前缀编码(即要求一个字符的编码不能是另一个字符编码的前缀),可用字符集中的每个字符作为叶子结点生成一棵编码二叉树,为了获得传送报文的最短长度,可将每个字符的岀现频率作为字符结点的权值赋于该结点上,显然字使用频率越小权值起小,权值越小叶子就越靠下,于是频率小编码长,频率高编码短,这样就保证了此树的最小带权路径长度,效果上就是传送报文的最短长度.因此,求传送报文的最短长度问题转化为求由字符集中的所有字符作为叶子结点,由字符出现频率作为其权值所产生的 Huffman树的问题.利用 Huffman树设计的二进制前缀编码,称为 Huffman编码,它既能满足前缀编码的条件,又能保证报文编码总长最短本文将介绍的word2ve工具中也将用到 Huffman编码,它把训练语料中的词当成叶子结点,其在语料中岀现的次数当作权值,通过构造相应的 Huffman树来对每一个词进行Huffman编码图3给岀了例2.1中六个词的 Huffman编码,其中约定(词频较大的)左孩子结点编码为1,(词频较小的)右孩子编码为0.这样一来,“我”、“喜欢”、“观看”、“巴西”、“足球”、“世界杯”这六个词的 Huffman编码分别为0,111,110,101,1001和100000欢观有巴西足球图3 Huffman编码示意图注意,到目前为止关于 Huffman树和 Huffman编码,有两个约定:(1)将权值大的结点作为左孩子结点,权值小的作为右孩子结点;(②)左孩子结点编码为1,右孩子结点编码为0.在word2vee源码中将权值较大的孩子结点编码为1,较小的孩子结点编码为θ.为亐上述约定统一起见,下文中提到的“左孩子结点”都是指权值较大的孩子结点3背景知识word2vec是用来生成词向量的工具,而词向量与语言模型有着密切的关系,为此,不妨先来了解一些语言模型方面的知识83.1统计语言模型当今的互联网迅猛发展,每天都在产生大量的文本、图片、语音和视频数据,要对这些数据进行处理并从中挖掘出有价值的信息,离不开自然语言处理( Nature Language processingNIP)技术,其中统计语言模型( Statistical language model)就是很重要的一环,它是所有NLP的基础,被广泛应用于语音识别、机器翻译、分词、词性标注和信息检索等任务例3.1在语音识别亲统中,对于给定的语音段Voie,需要找到一个使概率p(Tcrt| Voice最大的文本段Tert.利用 Bayes公式,有P(Teact Voice)p(VoiceTert)p(Text)P(Veonce其中p( Voice Teat)为声学模型,而p(Tert)为语言模型(l8])简单地说,统计语言模型是用来计算一个句子的概率的概率模型,它通常基于一个语料库来构建那什么叫做一个句子的概率呢?假设W=m1:=(n1,w2,…,tr)表示由T个词1,2,…,ur按顺序构成的一个句子,则n,U2,…,wr的联合概率p(W)=p(u1)=p(u1,u2,…,r)就是这个句子的概率.利用 Baves公式,上式可以被链式地分解为1)=p(u1)·p(u2l1)·p(vai)…p(ur1-)3.1其中的(条件)概率p(1),p(U2mn1),p(u3),…,p(urln1-1)就是语言模型的参数,若这些参数巳经全部算得,那么给定一个句子1,就可以很快地算出相应的p(1)了看起来妤像很简单,是吧?但是,具体实现起来还是有点麻烦.例如,先来看看模型参数的个数.刚才是考虑一个给定的长度为T的句子,就需要计算T个参数.不妨假设语料库对应词典D的大小(即词汇量)为N,那么,如果考虑长度为T的任意句子,理论上就有N种可能,而每种可能都要计算T个参数,总共就需要计算TN个参数.当然,这里只是简单估算,并没有考虑重复参数,但这个量级还是有蛮吓人.此外,这些概率计算好后,还得保存下来,因此,存储这些信息也需要很大的內存开销此外,这些参数如何计算呢?常见的方法有 II-gram模型、决策树、最大熵模型、最大熵马尔科夫模型、条件随杋场、神经网络等方法.本文只讨论n-gram模型和神经网络两种方法.首先来看看n-gram模型32n-gram模型考虑pko4-)(k>1)的近似计算.利用 Baves公式,有p(wr wi)P(uP(w根据大数定理,当语料库足够大时,p(k4-1)可近似地表示为P(wwi)count(wi)(3.2)count(a其中 count(u4)和 count-)分别表示词串t和v-在语料中出现的次数,可想而知,当k很大时, count(o4)和 count(4-1)的统计将会多么耗时从公式(3.1)可以看出:一个词出现的慨率与它前面的所有词都相关.如果假定一个词出现的概率只与它前面固定数目的词相关呢?这就是n-gran模型的基本思想,它作了一个n-1阶的 Markov假设,认为一个词出现的概率就只与它前面的n-1个词相关,即-1)≈p(kk-1+),于是,(3.2)就变成了p(wxJuk-)count(n+1countri(3.3以〃=2为例,就有p(uk4-1)≈count(k-1, Wk)count(Wk-1)这样一简化,不仅使得单个参数的统计变得更容易(统计时需要匹配的词串更短),也使得参数的总数变少了那么, n-gran中的参数n取多大比较合适呢?一般来说,n的选取需要同时考虑计算复杂度和模型效果两个因素表1模型参数数量与n的关系模型参数数量1( ingram)2×1052(bigram)4×10103( trigram)8×10154(4grm)16×10在计算复杂度方面,表1给出了n-gram模型中模型参数数量随着n的逐渐增大而变化的情况,其中假定词典大小N=2000(汉语的词汇量大致是这个量级).事实上,模型参数的量级是N的指数函数(O(N"),显然n不能取得太大,实际应用中最多的是采用n=3的三元模型在模型效果方面,理论上是π越大,效果越奷.现如今,互联网的海量数据以及机器性能的提升使得计算更高阶的语言模型(如n>10)成为可能,但需要注意的是,当n大到一定程度时,模型效果的提升幅度会变小.例如,当n从1到2,再从2到3时,模型的效果上升显著,而从3到4时,效果的提升就不显著了(具体可参考吴军在《数学之美》中的相关章节).事实上,这里还涉及到一个可靠性和可区别性的问题,参数越多,可区别性越好,但同时单个参数的实例变少从而降低了可靠性,因此需要在可靠性和可区别性之间进行折中另外, n-gran模型中还有一个叫做平滑化的重要环节.回到公式(3.3),考虑两个问题:若 count(uk-n+1)=0,能否认为p(kln1-1)就等于0呢?若 count(kn+)= count(uk-+1,能否认为p(uur-)就等于1呢?显然不能!但这是一个无法回避的问题,哪怕你的语料库有多么大.平滑化技术就是用来处理这个问题的,这里不展开讨论,具体可参考[11总结起来,n-gram模型是这样一种模型,其主要工作是在语料中统计各种词串岀现的次数以及平滑化处理.概率值计算好之后就存储起来,下次需要计算一个句子的概率时,只需找到相关的概率参数,将它们连乘起来就好了然而,在机器学习领域有一种通用的招数是这样的:对所考虑的问题建模后先为其构造一个目标函数,然后对这个目标函数进行优化,从而求得一组最优的参数,最后利用这组最优参数对应的模型来进行预測对于统计语言模型而言,利用最大似然,可把目标函数设为plwlConteat(w))∈C其中C表示语料( Corpus), Context(u)表示词U的上下文( Context),即周边的词的集合.当 Context(u)为空时,就取p( Context(w)=p(u).特别地,对于前面介绍的 n-gran模型,就有 Context(mn)=2-n+1注3.1语料¢和词典仍的区别:词典仍是从语料¢中抽取岀来的,不存在重复的词;而语料C是指所有的文本內容,包括重复的词当然,实际应用中常采用最大对数似然,即把目标函数设为∑ logp(u( ontext(o)(3.4)然后对这个函数进行最大化从(3.4)可见,概率p( CONtex()已被视为关于和 Context()的函数,即p(w Context(w))= F(w, Conteact(w), 0)
- 2020-06-14下载
- 积分:1