2014-07-06 15:00:53 来源:北京日报 责编:qiuxg 点击:
“阿根廷和瑞士,谁会赢?”7月1日深夜,劲松桥附近一家烤串吧里依然灯火通明,和朋友们聚在一块看球的李天响兴致勃勃地拿这顿夜宵饭钱当起彩头,猜起了这场将于2日零点开始的世界杯淘汰赛的输赢。
大伙儿七嘴八舌地说着自个儿的想法,其中,李天响说:“我觉得,阿根廷赢得不会太容易,说不准拖到点球都不一定。”最终结果是,比赛一直到加时赛的下半段才打破僵局,最终阿根廷以1:0的比分艰难获胜。
“你小子这次怎么神啦?”朋友们问。面对大伙儿的疑惑,李天响摇了摇手上的手机:“我有‘军师’。”
点开手机上一款名为“500彩票”的APP,李天响找出了1日晚上刚收到的一条资讯:“阿根廷战瑞士小胜。”“全是数据说话,挺有门路。”李天响告诉身旁的朋友。
这款APP由500彩票网运营,它是如何准确预测到比赛结果的?这背后离不开大数据的运用。
就在阿根廷对瑞士那场生死战开始前不到6个小时的1日下午,海淀方圆大厦12层的一间办公室里,临近下班,在500彩票网担任数据开发工程师的王雷(化名),仍在紧张地处理着刚刚汇集到手头的数据。他身前的电脑屏幕上,红红绿绿的数字不停闪过,汇聚成高低错落的峰状图。
“这是把一场足球赛事的各个因素层层分解,变成一个个单元数字。通过软件对数字的分析,得出大致的预测结果。”王雷解释说,这些因素包含两支球队历史交锋记录、近期状态、得失球数据、主客场战绩、未来对阵数据、球员伤停数据,甚至会细化到当天比赛天气。“这不难理解,比如这次世界杯小组赛期间,不少欧洲球队表现不佳,其中一个原因就是因为巴西天气过于闷热,而南美球员更容易适应。”
“强队以一球取胜的几率很大。”世界杯开始后不久,王雷和他的同事把这么一条预测资讯放进了数据库中。
这是一次“牛刀小试”。原来他们一一记录下了48场小组赛中凌晨零点开打的18场比赛后分析发现,其中平局仅有1场,其余17场比赛全部分出胜负;这17场分胜负的比赛中,有12场比赛输赢差距在1球,比例高达66.7%。也就是说,12场输赢差距在1球的比赛中,强队取胜10场,胜率极高。
如何找到这些数据成为关键的技术活。王雷介绍,现在国际顶级足球赛事都会通过在球场架设的多台摄像机全面收集数据,用电脑自动将比赛过程的每个细节转化为数据存储。每一场比赛下来,球员在场上是进攻还是防守,是有球进攻还是无球跑动,球员上场时间、助攻情况、防守情况都一一被记录下来。
另一方面,网友在网络上的搜索数据、媒体对比赛结果的报道、赔率市场数据等这些“外围”数据也同样会被王雷和他的同事用软件捕捉到。所有这些数据进入到王雷的电脑里则会转变成一条条编码,经过软件飞速地“扫码”,寻找到其中的规律。
在500彩票网,和王雷一样的工程师还有20多名,他们组成的“数据平台组”成为整个公司的数据核心,每天都在为球迷提供球赛咨询服务。早在每一场比赛开始前的四五天,他们就开始去搜集数据,而其中的数据甚至会在比赛前的一两个小时还有所变化。
“我们抓取的数据不仅包括207支国家队,还囊括了欧洲、南美、亚洲等联赛俱乐部及低级别球队信息。”500彩票网首席财务官潘正明称,他们所处理的世界杯数据囊括125项联赛、1万多支球队、45万多场比赛数据。显然,拥有“数据池”的大小成为资讯网站之间比拼的一大资本。同样做着“据透”生意的百度大数据研究院相关负责人就不甘示弱地告诉记者,他们通过自有软件采集和向国际数据供应商采购数据,一共采集到了过去5年内全世界987支球队的3.7万场比赛数据,共涉及到19972名球员和1.12亿条相关数据。这些大数据为预测某场比赛结果提供了坚实的基础。
大数据和云计算是什么关系?
“大数据”、“云计算”,眼下两个热得发烫的互联网术语有什么内在关系?
可以说,云计算和大数据是一个硬币的两面。如同云计算的出现,大数据也不是一个突然而至的新概念。云计算是大数据成长的驱动力和硬件基础,由于数据越来越多、越来越复杂、越来越实时,这就更加需要云计算的分布式处理、分布式数据库和云存储、虚拟化技术等技术去处理,所以二者之间是相辅相成的。
云计算为大数据提供了可以弹性扩展、相对便宜的存储空间和计算资源,使得中小企业也可以像阿里巴巴、百度等大型互联网公司一样通过云计算来完成大数据分析。