所谓专题大数据分析,是指对特定的一些规模巨大的数据进行分析。大数据常用来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。常见特征是数据量大、类型繁多、价值密度低、速度快、时效低。比较常见的专题大数据分析有:市场购物篮分析、重力模型、推荐算法、价格敏感度分析、客户分组分析等分析方...
平台发布黑龙江省市公报、统计年鉴、普查公报等数据来源网址:http://tjj.hlj.gov.cn/sy
通过购物篮/购物车所显示的信息来研究顾客的购买行为。购物篮分析最出名的一个案例就是“啤酒与尿布”:20世纪90年代的美国沃尔玛超市中,其管理人员分析销售数据时发现在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,经过调查发现,原来在美国有婴儿的家庭中,一般是母...
国家统计局是国务院直属机构,主管全国统计和国民经济核算工作,拟定统计工作法规、统计改革和统计现代化建设规划以及国家统计调查计划,组织领导和监督检查各地区、各部门的统计和国民经济核算工作,监督检查统计法律法规的实施。来源网址:http://www.stats.gov.cn/tjsj
重力模型分析应用最多的一种“出行分布模型”。因表述形态与牛顿重力定律而得名。模型认定两区间内的出行次数同出发区的出行产生数成正比,同两区间的交通阻抗的某一乘方数成正比。推荐算法是计算机专业中的一种算法,通过一些数学算法,推测出用户可能喜欢的东西,目前应用推荐算法比较好的地方主要是网络,其中淘宝做的比...
由联合国教科文组织提供的世界各国经济,教育,人口等丰富的数据集,可供面试使用和下载。来源网址:http://uis.unesco.org
敏感性分析法是指从众多不确定性因素中找出对投资项目经济效益指标有重要影响的敏感性因素,并分析、测算其对项目经济效益指标的影响程度和敏感性程度,进而判断项目承受风险能力的一种不确定性分析方法。见下图:
这是一个研究成果共享平台,在这里用户可以看到来自世界各地的专业人士的研究成果分享,同时也获取其中的研究数据。来源网址:https://figshare.com
客户分组分析是根据用户的属性数据分析,对用户进行了分组归类来分析。它其实就是常规比较分析里面的分组分析,不过主要针对的是客户群体。例如某年对小镇青年与都市青年最喜爱的购物APP分组分析得出的结论如下图:
数据世界这个网站像是一本在线出版物,它展示了生活条件是如何变化的,所有用户可以在上面免费下载数据和代码。来源网址:https://ourworldindata.org
多步骤试验的计数法则如果一个试验可以分为循序的k个步骤,在第1步中有N1种试验结果,在第2步中有N2种试验结果...以此类推。那么所有的试验结果的总数为N1*N2*N3...*Nk。举例:抛两枚硬币,第一枚有正反两种结果,第二枚有正反两种结果。所以试验结果的总数是 2X2=4组合计数法则从N项中任取...
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能核心,是使计算机具有智能的根本途径。来源网址:https://baike.baidu...
简单的来讲,贝叶斯定理其实就是,我们先假设一个事件发生的概率,然后又找到一个信息,最后得出在这个信息下这一事件发生的概率。举一个我们生活中的例子,当我们和一个被怀疑做坏事的人聊天时,我们首先假设他做坏事的概率为a,然后我们根据和他交谈的信息,得出对他新的认识,重新判断他做坏事的概率b.贝叶斯就是阐述...
大数据分析是指对规模巨大的数据进行分析。大数据可以概括为5个V, 数据量大(Volume)、速度快(Velocity)、类型多(Variety)、价值(Value)、真实性(Veracity)。大数据作为时下最火热的IT行业的词汇,随之而来的数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业...
数学期望是对随机变量中心位置的一种度量。是试验中每次可能结果乘以其结果的概率的总和。简单说,它是概率中的平均值。方差随机变量的变异性或者是分散程度的度量。其中的u就是E(x).
数据科学家是指能采用科学方法、运用数据挖掘工具对复杂多量的数字、符号、文字、网址、音频或视频等信息进行数字化重现与认识,并能寻找新的数据洞察的工程师或专家(不同于统计学家或分析师)。一个优秀的数据科学家需要具备的素质有:懂数据采集、懂数学算法、懂数学软件、懂数据分析、懂预测分析、懂市场应用、懂决策分...
二项概率分布二项分布是一种离散型的概率分布。故明思义,二项代表它有两种可能的结果,把一种称为成功,另外一种称为失败。除了结果的规定,它还需要满足其他性质:每次试验成功的概率均是相同的,记录为p;失败的概率也相同,为1-p。每次试验必须相互独立,该试验也叫做伯努利试验,重复n次即二项概率。掷硬币就是一...
数据生命周期管理(data life cycle management,DLM)是一种基于策略的方法,用于管理信息系统的数据在整个生命周期内的流动:从创建和初始存储,到它过时被删除。来源网址:https://baike.baidu.com/item/%E6%95%B0%E6%8D%AE%E7%94%...
泊松概率分布泊松概率是另外一个常用的离散型随机变量,它主要用于估计某事件在特定时间或空间中发生的次数。比如一天内中奖的个数,一个月内某机器损坏的次数等。泊松概率的成立条件是在任意两个长度相等的区间中,时间发生的概率是相同的,并且事件是否发生都是相互独立的。泊松概率既然表示事件在一个区间发生的次数,这...
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据...