8868体育大数据的概念可能不同的人会有不同的理解,我自己从08年开始从事大数据相关的工作,那个时候我们是觉得自己搞的是云计算和数据仓库,而到了2011、2012年的时候,国内大数据的概念才兴起来,之后就是炒了三年的概念。
因为从事这一方向,这几年不断会有人问我什么是大数据?我一直都回答不好。在最近的几个月,我对这一概念思考的更多一些,结合看过的一些资料(如《大数据时代》、《数学之美》第二版、《硅谷之谜》、吴军的演讲材料等)和实际的经历,算是有了一些认识。与其说认识,还不如说是总结,换个角度看待这个问题,分为大数据概念和大数据思维。
百度每天的行为数据1.5个PB够大吧?我们毫无怀疑这是大数据。但全国各个地级市今天的苹果价格只有2MB大小,是典型的小数据吧?但如果我们基于这个数据,做一个苹果分销的智能调度系统,这就是个牛逼的大数据应用了。Google在刚成立的时候,佩奇和布林下载了整个互联网的页面,在压缩后也就47GB大小,现在一个U盘都能装的下,但Google搜索显然是个大数据的应用。如果再来看一台风机每天的振动数据可能都有50GB,但这个数据只是针对这一台风机的,并不能从覆盖面上,起到多大的作用,这我认为不能叫大数据。
《文学文摘》所收集的问卷有240万,绝对是够大的,但为什么预测错误了呢?当时《文学文摘》是通过电话调查的,能够装电话的就是一类富人,这类人本身就有不同的政治倾向,调查的结果本身就是偏的。而盖洛普只收集了5万人的意见,但是他采用按照社会人群按照比例抽样,然后汇集总体结果,反而预测正确了。因为这次预测,盖洛普一炮而红,现在成了一个著名的调研公司。当然,后来盖洛普也有预测失败的时候。到了2012年,一个名不见经传的人物Nate Silver通过采集网上的社交、新闻数据,这是他预测的情况和真实的情况:
从这点我是想强调要全量而不是抽样,大数据时代有了更好的数据采集手段,让获取全量数据成为可能。
在2013年9月,发布了一份《中国十大吃货省市排行榜》,在关于“××能吃吗?”的问题中,宁夏网友最关心“螃蟹能吃吗?”内蒙古、新疆和西藏的人最关心“蘑菇能吃吗?”浙江、广东、福建、四川等地网友问得最多的是“××虫能吃吗?”而江苏以及上海、北京等地则最爱问“××的皮能不能吃?”。下图是全国各地关心的食物:
用户在问什么能吃吗的时候,并不会说“我来自宁夏,我想知道螃蟹能吃吗”,而是会问“螃蟹能吃吗”,但是服务器采集到了用户的IP地址,而通过IP地址就能知道他所在的省份。这就是数据多维度的威力,如果没有IP这个维度,这个分析就不好办了。而现有的采集手段,能够让我们从多个维度获取数据,再进行后续分析的时候,就能对这些维度加以利用,就是“细”。
我们现在对CPI已经不再陌生,是居民消费价格指数(consumer price index)的简称。我们努力工作,起码要跑过CPI。
那你有了解过CPI是怎么统计的吗?这里包括两个阶段,一个是收集商品价格数据,一个是分析并发布数据。我从上了解到,中国CPI采样500多个市县,采价调查点6.3万个,近4000名采价员,次月中旬发布报告。我还曾找国家统计局的朋友确认了这个事情。
而在美国有一家创业公司叫Premise Data。它通过众包方式,25000个采价员(学生、收银员、司机等),使用手机APP采集数据,每条6~40美分,比美国政府数据提前4~6周发布。
这就是“时”,强调实时收集数据和实时分析数据。当然,在CPI的例子中,我们可以让价格上报更智能一些,不需要人工的方式。
从上面的大、全、细、时四个字,我们就可以对大数据的概念有个较为清晰的认识。这四点主要强调的数据的获取和规模上,和以往传统数据时代的差异。有了这个基础,我们还要看怎么对大数据加以利用。这里就要看看大数据思维。我们也来看两个例子。
85前应该都用过智能ABC,一种古老的输入法,打起来特别慢。到了2002年左右,出了一个叫紫光的输入法,当时我就震惊了。真的输入很快,仿佛你的按键还没按下去,字就已经跳出来了。但渐渐的发现紫光拼音有个问题是许多新的词汇它没有。后来有了搜狗输入法,直接基于搜索的用户搜索记录,去抽取新的词库,准实时的更新用户本地的词库数据,因为有了大量的输入数据,就能直接识别出最可能的组合。
我们以前都用纸质的地图,每年还要买新的,旧的地址可能会过时,看着地图你绝对不知道哪里堵车。但有了百度地图就不一样了,我们上面搜索的地址都是及时更新的,虽然偶尔也会有被带到沟里的情况,但毕竟是少数。可以实时的看到路面堵车情况,并且可以规划防拥堵路线。
我们发现不是在拍脑袋做决定了,不是通过因果关系或者规则来决定该怎么办了,而是直接通过数据要答案。我们获取的数据越全面,越能消除更多的不确定性。也就是用数据说话,数据驱动。
麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
大数据”(Big data)研究机构Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
总结来说,大数据一般指数据量级非常大,常规数据处理、数据存储和数据分析能力无法满足要求的数据。同时,“大数据”的“数据处理能力”是相对的,是不断提高的,随着大数据处理技术的发展,今天的大数据会成为明天的小数据。
前面提到的这些大数据,对大多数企业来说,都是外部大数据。当前大家所说的“利用大数据来做某某事”,一般都指的是利用外部大数据。当前的大数据应用更多在“富数据”行业:互联网企业、电信企业、电商、金融服务业。而广大非超大型的大中小型企业,并不一定拥有这样的“富数据”的业务机会。但针对企业外部的大数据,有些开放的数据我们还是可以通过技术手段获取和使用的。
每个企业日常经营和管理中都产生数据。比如考勤数据、销售数据、销售行为数据、生产数据、财务数据、采购数据人力资源数据等等。企业大数据是指全面记录企业经营和管理活动的数据。
我们这个定义,是从企业实践应用角度出发的,不过分强调数据量,即使数据不多,依然是企业大数据的一个组织部分。我们主要重视数据设计范围的全面性。在企业数据化经营和管理中,只有全面的、相互关联的数据才能发挥作用。
在 IBM 对于大数据的定义“5V”中,有个Value(低价值密度),外部大数据数据量和信息量非常大,但内容不聚焦,对单个企业来讲,价值含量低。而我们的企业大数据每一条记录都和企业高度相关,都可能蕴含巨大信息量,价值密度高,需要企业更加重视。从另一方面来说,企业大数据是我们当前能快速挖掘利用,能高效分析,支撑决策管理的数据;而外部读数据,或许更适合我们发现商机和商业模式,对于企业经营管理,效果不一定可观,甚至难以支撑经营管理决策。
企业管理信息系统里,各个岗位管理者都有数据清单。下面是常见部门岗位数据清单举例。我们看到人力资源管理、财务管理、销售管理等业务相关的部门,都有这类数据清单。如果企业不能快速提供这些数据,那就说明这个企业的数据化管理存在严重的数据源管理不足。
同行或者潜在市场的相关数据,比如竞品信息、竞争对手活动信息、潜在客户名单、客户内部决策流程等,需要销售人员主动去外部采集。数据的质量和数量完全依赖于销售人员的积极性和主动性。
企业需要建立管理制度,落实管理流程,来确保相关人员采集数据的积极性和准确性。比如一定程度上关联KPI,或者进行奖励性措施。为什么企业大数据管理不能仅仅依赖于个人的积极性和主动性呢?因为不同的员工基于不同的资源和个人利益,会带来不同的结果。企业要想构建比较完善的企业大数据,必须要系统化地管理。
企业建立相关管理制度,一方面落实到人,让数据负责人对自己所负责的数据有质量意识;另一方面,在内部管理上,要建立不断完善的活动与数据更新的联动机制。这些需要在内部管理制度、岗位要求、任务说明、流程要求等方面作数据管理的规范性要求。
一般来说,企业可以先自行建立简略的数据管理的的相关管理制度,也可以咨询专业的数据化管理研究机构,提供方法支持和可借鉴的标准化模板,以及借鉴其他成功的数据化管理项目实施案例。
企业大数据更多关注的是企业内部的数据,是指企业自主拥有的,具有“自主产权”的数据,包括企业主动合法采集的、外部采购的、第三方合作的,以及政府等机构公开的、无偿使用的。
第一类,是资源信息数据。资源信息数据是“静态数据”,记录企业相关内外部资源主体的相关信息。企业的资源包括人、财、物和信息四大类资源。
第二类,是资源活动记录数据,指得是公司经营管理活动所必然牵动的数据。比如,考勤数据、销售交易数据,这些都是资源活动,具有极强的时效性,我们称之为“动态数据”。
为了企业构筑更加完整、全面的数据源头,我们从数据描述对象与企业的关系角度,以及动态和静态信息来进行分类,企业大数据的来源主要有六大类:
如果企业能够坚持3~5年持续收集、处理数据,甚至主动采集市场上的调研数据,那么企业就能不断感知公司内部和外部市场的变化,随时调整公司内部管理,以及产品线、销售策略、品牌策略,让大企业有具有敏锐的感知力和高效的行动力,做到“春江水暖鸭先知”。
有一类重要的企业大数据来源,不是来自企业经营管理活动,叫作“外部公共开放数据资源”。外部公共开放数据资源,包括政府公布的人口数据、经济数据以及权威机构发布的研究数据等。
企业制定战略、研究投资等方面是,需要考虑深度分析这些数据。这些数据一般都有固定的开放平台,包括国家统计局网站、权威数据机构网站、官方媒体等。尤其是贵阳大数据中心,有众多公共开放数据资源,同时也有不少可交易的企业数据。其中,人口数据对于大多数公司制定发展战略、确定年度目标有重要参考意义。
外部公共开放数据虽然在逐年增加,大基本保持平稳,统计方法基本不变。企业如果需要,应该积极主动的去利用这些数据。
从过去的调研来看,企业不舍得投资管理信息系统和数据积累,主因是没有充分认识到这些业务生产、经营、管理的数据的价值,不知道数据有什么用。当前,企业中还是实用主义至上,企业管理者当前看不到数据的价值,就不注重数据的收集和管理。可以说,这是企业管理者“短视”导致的必然结果,同时也为未来企业竞争动力不足留下隐患。
其实,我们企业不是没有数据,而是没有对数据进行有效管理。我们不可能分析和挖掘没有的数据。现在不积累数据,会陷入“先有鸡还是先有蛋”的怪圈。未来的市场竞争环境完全不同以往,靠经验做决策风险非常高,企业需要积累数据,“以史为鉴”,避免“重蹈覆辙”,做到“心中有数”。
根据管理学大师彼得·德鲁克的经验,企业最大的经营风险来自于外部和内部环境的不确定性,在越是复杂多变的市场环境下,企业要想持续经营就越加需要注重确定性,而提高企业经营和管理确定性的基础就是数据。
企业数据化管理做不成,是有方法诊断“病因”的,我们主要从“不会”和“不为”两个方面诊断。
一是:不会。确实,大数据概念太新,相关知识、书籍 、培训课程不足,问题客观存在。同时,我们也应该看到,帆软等大数据分析解决方案服务商,探索在前,有成功经验可以借鉴。
二是:不为。我们需要绕过最大阻力:“你不可能叫醒一个装睡的人”,很难教会一家不愿意推数据化管理的企业。企业的大数据积累和沉淀需要企业全员的数据思维和数据意识。如果中层管理者和基层员工缺乏数据思维和意识,企业高层难以推动。
我发现身边很多人对于这些热门的新技术、新趋势,往往趋之若鹜却又很难把它说清楚,如果你问他大数据和你有什么关系?估计很少能说出一二三来。
对于大数据,大家对这概念的认知一致是非常困难的。我第一次听到“大数据”这个词,很自然地会从字面上去理解大数据的概念。认为大数据不就是数据量很大嘛,大数据技术就是大量数据的储存技术嘛。不知道各位小伙伴是不是跟我有一样的认知。
最早提出大数据时代到来麦肯锡曾给出大数据的定义:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”
PB还不是最大级别的,在PB之上,还有EB( 百亿亿字节 艾字节),ZB(十万亿亿字节 泽字节),YB( 一亿亿亿字节 尧字节),未来只会出现更大的字节。
但是目前的大数据应用,还没有达到EB级、ZB级、YB级,主要集中在PB/EB级别。
我们所知道的人工智能,就是让计算机按照人的思路去做。当然这都是为了人而服务,让机器能够解决人脑所能解决的问题,或者强于人脑,至于方式嘛,也不过于关注是否采用跟人一样的方法。
语音识别相信大家都用过吧,能解决我们日常工作中很多烦恼。而语音识别就是人工智能最核心的课题。它是基于大量的数据采用统计的机器学习方法。
海量数据的处理需求不再局限在离线计算当中,很多企业都从离线计算走向实时计算中,目前,很多企业营销的新常态要实时化、场景化。最后这一点也是和传统的数据挖掘技术有着本质的不同。
有人把大数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。
维克托·迈尔-舍恩伯格在《大数据时代》说到:在大数据时代已经到来的时候要用大数据思维去发掘大数据的潜在价值。书中,作者提及最多的是Google如何利用人们的搜索记录挖掘数据二次利用价值,比如预测某地流感爆发的趋势;Amazon如何利用用户的购买和浏览历史数据进行有针对性的书籍购买推荐,以此有效提升销售量;Farecast如何利用过去十年所有的航线机票价格打折数据,来预测用户购买机票的时机是否合适。
Target 超市以20多种怀孕期间孕妇可能会购买的商品为基础,将所有用户的购买记录作为数据来源,通过构建模型分析购买者的行为相关性,能准确的推断出孕妇的具体临盆时间,这样Target的销售部门就可以有针对的在每个怀孕顾客的不同阶段寄送相应的产品优惠卷。
Target的例子是一个很典型的案例,这样印证了维克托·迈尔-舍恩伯格提过的一个很有指导意义的观点:通过找出一个关联物并监控它,就可以预测未来。Target通过监测购买者购买商品的时间和品种来准确预测顾客的孕期,这就是对数据的二次利用的典型案例。如果,我们通过采集驾驶员手机的GPS数据,就可以分析出当前哪些道路正在堵车,并可以及时发布道路交通提醒;通过采集汽车的GPS位置数据,就可以分析城市的哪些区域停车较多,这也代表该区域有着较为活跃的人群,这些分析数据适合卖给广告投放商。
当然,上面的一切看起来都很美好,但是否是以牺牲了用户的自由为前提呢?只能说当新鲜事物带来了革新的同时也同样带来了“病菌”。比如,在手机未普及前,大家喜欢聚在一起聊天,自从手机普及后特别是有了互联网,大家不用聚在一起也可以随时随地的聊天,只是“病菌”滋生了另外一种情形,大家慢慢习惯了和手机共渡时光,人与人之间情感交流仿佛永远隔着一张“网”。凡事具有两面性,有利亦有弊!
一句话:用传统的数据分析与统计学方法无法收集,处理,分析和表征的数据。不一定数据集合非常大。可能他只有几百组tuple,但是有几万个feature。这种情况在bio-info里到处都是。你说传统的统计学拿这个玩意怎么办?
而且数据也不光是,普通人所认识的那种excel里的一行行的数字。图像,视频,音频都可以是数据。再比如,你是一个网络邮件服务商,比如Yahoo或者Foxmail;我现在要在每天处理的几亿封邮件里挑选出涉嫌与恐怖组织活动有关的邮件同时要保证尽可能少的侵犯用户的隐私,你也可以认为,这也是一个data science的问题。这里头的算法也是“大数据算法。”
比如我熟悉的问题里头,现在做TEM也有人用data science的思想分析TEM的图像。
2009年几乎全球都被一种叫做甲型H1N1的流感病毒支配恐慌。但是,在甲型H1N1流感爆发的前几周,谷歌公司的工程师们在《自然》杂志上发表了一篇论文,论文阐述了谷歌可以预测到冬季流感的传播,甚至可以具体到美国的某个特定的地区或州。因为谷歌保存了多年来用户所有的搜索记录,有着庞大的数据资源。根据这些数据,谷歌做出流感预测,与官方数据的相关性高达97%。而且谷歌利用大数据判断的速度比官方快一到两周。
大数据最大的功能应该就是预测了吧,可以帮助用户预测机票价格的走向,从而帮助用户省钱。另外,大数据还可以帮忙对比酒店预订价格、二手车购买价格等等。包括我们熟悉的淘宝上的喜好物品推荐,亚马逊上的喜爱书籍推荐,今日头条上的新闻推荐,都是大数据技术的应用。
大数据意识是非常重要的。没有大数据意识的工作人员很容易丢失一些重要的数据信息。这是思维上需要的变革。
如今,数据已经成为了一种商业资本,可以创造新的经济利益。因为互联网公司,比如国内的三巨头BAT,能收集大量有价值的数据,所以这些公司在新时代占尽先机。而且大型互联网公司也有能力研发处理大数据的工具,例如谷歌的MapReduce平台就是为了处理大数据而建。
大数据运用到医疗、教育、商业等等多个方面,还有利于抑制全球变暖、发展经济、消除痼疾等等。但是,社会似乎并没有探究出大数据的因果关系,而是仅仅关注他的相关关系。大数据有可能改变我们的生活,给我们带来挑战,我们要做好准备。
(本文部分借鉴于《大数据时代 生活、工作与思维的大变革》 维克托.迈尔-舍恩伯格著)