大数据是相对于一般数据而言的,目前对大数据尚缺权威的严格定义,但较普遍的解释是指“难以用常规的软件工具在容许的时间内对其内容进行抓取、管理和处理的数据集合”。规模大是大数据的标志之一,但大数据之所以难处理不仅在于规模大,更大的挑战是其随时间的变化快和类型的多样性,根据可否用表格或关系数据库的表和视图来表示而区分为结构型和非结构型数据,照片和视频等就是典型的非结构数据。随时间和类型的变化增加了大数据的复杂性但也同时丰富了大数据的内涵。通常用4V(Volume、Velocity、Variety,Value)来反映大数据的特征,即量大、增长快、多样性和高价值。从这一点来看,对大数据仅仅冠以“大”这一形容词是不全面的,只不过在大数据的4V中,规模相对于变化和类型这两个特征容易定量,而且即便是单一类型的数据集(例如文本文件),只要有足够的规模也能称得上大数据。数据的规模越大,通常对数据挖掘所得到的事物演变规律越可信,数据分析的结果也越有代表性,因此对大数据这一词汇突出其规模大这一特征也是可理解的。
以下列举一些大数据的应用例子,从中可以看出大数据是资源,利用大数据所积累的信息找出网民的情绪与宏观经济的关联,利用顾客的购物行为分析顾客类型,利用企业交易行为建立诚信记录,利用历史统计的规律来预测未来。大数据是方法论,基于数据密集型科学可用类比来简化求解。总之,大数据思维可以应用到各行各业。
大数据在宏观经济管理领域的应用
采购经理人指数(PMI)通常是由统计部门发布的,但IBM 的日本公司建立了一个经济指标预测系统,它从互联网新闻中搜索出影响制造业的480项经济数据,再计算出PMI预测值,这个根据网上的新闻分析出的PMI,准确度相当高。印第安纳大学学者利用谷歌提供的心情分析工具,从用户近千万条短信、微博留言中预测道琼斯工业指数。用户的短信、微博是不会直接讨论道琼斯工业指数的,但字里行间会流露出当前的心情,整个社会用户的心情与经济增长状况是相关的,用这种方法预测道琼斯工业指数的准确率高达87%。淘宝网建立了“淘宝CPI”,它通过采集、编制淘宝网上成交额比重达到57.4%的390个类目的热门商品价格来反映网络购物市场整体状况,以及城市主流人群的消费态势,它比国家统计局公布的CPI还提前半个月预测经济的走势。
大数据在制造业的应用
丰田公司利用数据分析在试制样车之前避免了80%的缺陷。美国通用电气公司通过对所生产的2万台喷气引擎的数据分析,开发的算法能够提前一个月预测其维护需求,准确率达到70%。企业通过对网上数据分析了解市场动向,管理采购和合理库存。华尔街对冲基金依据购物网站顾客评论分析企业销售状况。华尔街银行根据求职网站岗位数量推断就业率。百度将网民对汽车的各类搜索请求进行大数据挖掘,帮助一个汽等车企业深入了解消费者需求,设计新品及资源调配。
大数据在农业领域的应用
谷歌前雇员在硅谷创办Climate公司,从美国政府获得30年的气候、60年的农作物收成和14TB的土壤的历史数据,同时还利用来自250万个地点的气候测量数据和1500亿例土壤观察数据,生成10万亿个模拟气候数据点。该公司预测任一农场的下一年的产量,向农户提供天气变化、作物、病虫害和灾害、肥料、收获、市场价格等咨询,并出售个性化保险,承诺每英亩的玉米利润增加100美元,如果出现未能预测的恶劣天气损坏庄稼,气候公司将及时赔付。最近该公司被孟山都公司以11亿美元的价格收购。
大数据在商业领域的应用
沃尔玛基于每个月4500万的网络购物数据,并结合社交网络上有关产品的大众评分,开发机器学习语义搜索引擎“北极星“,方便在线购物者浏览,在线购物人数增加10-15%。沃尔玛还通过对消费者的购物行为进行分析,了解顾客购物习惯,分析适合搭配售卖的商品,优化商场的布局和货架排列。在美国排行第二的折扣超市Target选出孕妇常购的典型商品,建立怀孕预测指数,针对性派送孕妇用品的优惠广告,还将分析用到各种细分客户群。在淘宝网上买东西时,消费者会在阿里的广告交易平台上留下记录,阿里不仅从交易平台把消费记录拿来自己使用,还会把消费记录卖给其他商家。比如说,某人在淘宝网上买了化妆品,销售化妆品的商家买到这个消费记录对应的顾客IP地址后,就会留意其后续的消费行为。一旦商家发现该用户浏览与自己有广告关系的网站时,马上就会弹出一个卖化妆品的广告,这样就很容易达成交易,最终结果是顾客、商家、网站、阿里集团都各有所得。
大数据在金融业的应用
华尔街“德温特资本市场”公司通过分析全球3.4亿微博账户留言来判断民众情绪,人们高兴的时候会买股票,而焦虑的时候会抛售股票,它通过判断全世界高兴的人多还是焦虑的人多,依此决定公司股票的买入或卖出,它常在人们买股票之前买入股票,也常在人们抛股票之前抛售股票,从而获得较好的收益。最近由于经济下行压力仍然较大,很多中小企业贷款难,阿里公司根据在淘宝网上中小企业的交易状况筛选出财务健康和诚信经营的企业,无需担保向这些中小企业提供贷款,目前阿里公司已放贷上千亿元,坏帐率仅0.3%,远低于我国四大商业银行的坏账率。2012年京东商城收购网银在线,联手中国银行为商家提供贷款,2013年12月“京保贝”正式上线,通过京东平台上的大数据分析,自动完成审批和风险控制,实现放款的时间缩短到3分钟。互联网公司在将电商平台变化为融资平台的同时,还通过与基金公司合作打造吸储投资平台。2013年6月下旬,阿里集团推出余额宝,对接天弘基金,以1元起购和高于银行的年化收益率,2013年底余额宝开户数4303万,累计申购资金超1853亿元。2013年底,百度理财和网易理财先后仿效,甚至不惜拿钱来圈住客户聚拢人气,因为互联网的用户群是大数据的源泉。
大数据在交通运输业的应用
美国UPS每天平均运输163万件包裹,用传感器跟踪4.6万辆车,优化运输路线,2011年少跑了8500万英里路程,节约了840万加仑燃料。中远物流公司有100多个配送中心,3000个网点,装GPS的上万辆车每月产生2亿条信息,据此优化运输路线,减排10%。美国AirSage公司每天通过处理来自公路汽车的上百万手机用户的150亿条位置信息,为超过100个城市提供实时交通信息。大数据在外贸中的应用。美国Panjiva公司(磐聚网)利用政府开放的海关货运数据建立全球外贸搜索引擎,每年采集上亿条货运记录,包括发货人、收货人、集装箱内货物内容和价值等,同时提供信用报告、合格证、网站和供应商等信息,成为面向采购商和供应商的智能B2B平台,为买卖双方搭建供应链。
大数据在影视行业的应用
我国新影数讯公司掌握了2万部电影、6万名艺人、4000位导演的数据资料,并能对微博关注影视娱乐的1.2亿人进行偏好分析。其开发的iFilm+系统通过对影名、剧本、角色、演员阵容、宣传情况、主题曲等70多个维度和变量进行数据分析来综合测评,预测一部电影的市场表现等情况,准确率可以高达80%。美国Netflix视频网站每天记录用户3000多万个观看的动作(暂停、回放、快进、停止)和400万个评分,300万次搜索,利用积累的大数据预判观众喜好,据此选择剧本、导演和演员及调整剧情,针对性向用户宣传,吸引用户从试用转向付费订阅。
大数据在医疗卫生领域的应用
谷歌把5000万条美国人搜索词和美国疾控中心在2003—2008年间流感传播期的数据进行了比较,建立数学模型,结合45条检索词条,在2009年甲型H1N1流感爆发的几周前,谷歌就给出了预测,与随后疾控中心公布的数据相关性高达97%。中国科学院与百度公司合作,精选了160多条关键词,对5年来的数据进行建模分析,得出中国艾滋感染人群的分布情况,其估值与后期卫生部门公布的结果基本一致。
大数据提供机器翻译服务
过去机器翻译是尽可能让计算机学会语法和查字典,但语言太复杂了,很多机器翻译难以实用。谷歌将语言视为能够判别可能性的数据,将语义挑战变成数学问题,利用已经索引过的海量资料库,从互联网上找各种文章及对应的译本,找出多语言数据之间的语法和文字对应规律,尽管这些语料库来自互联网上内容,会有语法错误和拼写错误等,只要无碍理解即可,因为常人说话和写文章也不见得每句都严格符合语法,基于类比的翻译方法比基于语法构词的翻译方法更快,可见“大数据基础上的简单算法比小数据基础上的复杂算法更有效。最近微软公司也开发了26种语言的实时翻译系统,声称使用了上百万网页上的素材和大数据及深度神经网络技术。
大数据在体育训练中的应用
美国NBA 从80年代开始将球员在赛场上的表现数据化,经过30多年的积累已达到可辨别每一个球员在场上的弱点,方便教练进行针对性战术安排。目前30家NBA球队俱乐部中聘请了数据分析师的15家的平均胜率达到59.3%,而另一半球队仅有平均40.7%的胜率。
大数据在热点检测中应用
利用短信、微博、微信和搜索引擎可以收集热点事件与挖掘舆情。通过对微博用户建立档案,提前关注可能引起社会不稳定的因素。在长假之前,很多人会在网络上搜索旅游点、旅店、火车与飞机航班信息或自驾游的路线等,由此可预知哪些旅游点和交通线路会拥塞,利用百度地图等所获得的百度春运迁徙图就是一例。2013年5月昆明市民上街反对“PX化工项目”上马,早在市民集会前一周该项目的百度搜索关注度剧增。
大数据在治安管理中的应用
2012年美国加州大学分析洛杉矶市过去1300多万起案件,找到了各小区发案与日期、天气、交通状况及其它相关事件的关系,建立犯罪活动预测平台,当地的警员每天按该系统发出的指令前往指定的小区巡逻,该系统已使该地区财产犯罪率和盗窃案件分别下降12%和26%。2013年8月美国《大西洋月刊》报道,纽约的一对夫妇因在谷歌上曾经搜索“高压锅”和“背包”被一个由6人组成的联合反恐部队以“查水表”名义上门盘问是否拿高压锅来做炸弹。
大数据在政治领域的应用
2012年美国大选,奥巴马竞选团队有数千名志愿者,建立选民档案并通过社交网络和微博等收集选民的爱好和关注,运行66000个计算机分析每次演说的效果,针对性做选民的工作,例如某个选民在脸谱网(facebook)或者推特网上的大部分帖子都是关于环保和医疗成本,他们就会以奥巴马名义发一封专门谈论环境和医保问题的电子邮件,让该选民认为奥巴马想其所想。这一策略对奥巴马获胜起到重要作用,而且与2008年的竞选相比,对奥巴马竞选的捐助者增加了50万人,数字筹款增加了20%,广告投放效率提升15%。
大数据在军事领域的应用
美国国防部目标是利用大数据将分析人员从任意语言文字资料中提取信息的能力提高100倍。美国中情局要求利用大数据将分析搜集数据的时间由63天缩短为27分钟。
摘自: 邬贺铨,《大数据思维》
网址引用: 思谋案例组. 大数据在各行各业中的应用案例. 思谋网. //www.zilicai.com/view/2287.