作者: [美] 吴军
出版社: 中信出版集团
副标题: 大数据与智能革命重新定义未来
出版年: 2016-8
页数: 374
定价: 68.00
装帧: 精装
ISBN: 9787508663814
数据和信息还是稍有不同,虽然它最大的作用在于承载信息,但是并非所有的数据都承载了有意义的信息。
数据中隐藏的信息和知识是客观存在的,但是只有具有相关领域专业知识的人才能将它们挖掘出来。
对数据和信息进行处理后,人类就可以获得知识。知识比信息更高一个层次,也更加抽象,它具有系统性的特征。
从观察中总结出数据,是人类和动物的重要区别,后者虽具有观察能力,却无法总结出数据,但是人类有这个能力。而得到数据和使用数据的能力,是衡量文明发展水平的标准之一。
人类的文明过程其实伴随着这样一个过程:
获取数据->分析数据->建立模型->预测未知
日本人通过1964年中国的 《人民画报》上刊登的铁人王进喜的照片,分析出了关于大庆油田的许多细节,从而有针对性的一举中标。
Google搜索的模式—Google趋势(Google Trends)。 利用这款产品,任何人都可以看到全世界用户在Google上搜索的关键词随着 时间和地点变化的趋势,从而知道大家关注什么事情。
要想取得准确的统计结果,统计首先要求数据量充足。
统计除了要求数据量必须充分以外,还要求采样的数据具有代表性。
在大多数复杂的应用中,需要通过数据建立起一个数学模型,以便在实际应用中使用。要建立数学模型就要解决两个问题,首先是采用什么样的模型,其次是模型的参数是多少。
其实只要数据量足够,就可以用若干个简单的模型取代一个复杂的模型。这种方法被称为数据驱动方法,因为它是先有大量的数据,而不是预设的模型,然后用很多简单的模型去契合数据(Fit Data)。
复杂问题的回答
我们解决问题的方法是这样的:
第一步,根据网页确定哪些用户在Google问过的复杂问题可以回答,而哪些回答不了。根据我们的研究发现,大约 70%~80%的问题,在Google第一页搜索结果中都有答案。大家如果想要验证这一点,不妨做一个简单的实验:在 Google、必应(Bing)或者百度问一个为什么的问题,比如问“天为什么是蓝色的”或者“为什么夏天比冬天热”,然后打开上述搜索引擎给出的前10条搜索对应的网页,通常都能找到想要的答案。但是,如果只看这些搜索引擎的摘要,只有 20%〜30%的问题的答案正好在摘要中。这实际上反映出在2012年的时候, 计算机与人在理解问题和回答问题上的差异。那么如果我们把目标设定在只回答那些在网页中存在答案的问题,我们其实就具备了大数据的完备性。
第二步,就是把问题和网页中的每一句话一一匹配,挑出那些可能是答案的片段,至于怎么挑,就要依靠机器学习了。
第三步,就是利用自然语言处理技术,把答案的片段合成为一个完整的段落。
在这些机器人的背后,是数据中心强大的服务器集群,而从方法上讲,它们获得智能的方法不是和我们人一样靠推理,而更多的是利用大数据,从数据中学习获得信息和知识。
人们将牛顿的方法论概括为机械思维,其核心思想可以概括成这样几句话:
- 世界变化的规律是确定的,这一点从托勒密到牛顿大家都认可。
- 因为有确定性做保障,因此规律不仅是可以被认识的,而且可以用简单的公式或者语言描述清楚。这一点在牛顿之前,大部分人并不认可,而是简单地把规律归结为神的作用。
- 这些规律应该是放之四海而皆准的,可以应用到各种未知领域指导实践,这种认识是在牛顿之后才有的。
机械思维更广泛的影响力是作为一种准则指导人们的行为,其核心思想可以概括成确定性(或者可预测性)和因果关系。 牛顿可以把所有天体运动的规律用几个定律讲清楚,并且应用到任何场合都是正确的,这就是确定性。类似地,当我们给物体施加一个外力时,它就获得一个加速度,而加速度的大小取决于外力和物体本身的质量,这是一种因果关系。没有这些确定性和因果关系,我们就无法认识世界。
从牛顿开始,人类社会的进步在很大程度上得益于机械思维,但是到了信息时代,它的局限性也越来越明显。首先,并非所有的规律都可以用简单的原理描述;其次,像过去那样找到因果关系已经变得非常困难,因为简单的因果关系规律性都被发现了。另外,随着人类对世界认识得越来越清楚,人们发现世界本身存在着很大的不确定性,并非如过去想象的那样一切都是可以确定的。因此,在现代社会里,人们开始考虑在承认不确定性的情况下如何取得科学上的突破,或者把事情做得更好。这也就导致一种新的方法论诞生。
世界的不确定性来自两方面,首先是当我们对这个世界的方方面面了解得越来越细致之后,会发现影响世界的变量其实非常多,已经无法通过简单的办法或者公式算出结果,因此我们宁愿采用一些针对随机事件的方法来处理它们,人为地把它们归为不确定的一类。
不确定性的第二个因素来自客观世界本身,它是宇宙的一个特性。在宏观世界里,行星围绕恒星运动的速度和位置是可以计算得很准确的,从而可以画出它的运动轨迹。但是在微观世界里,电子在围绕原子核做高速运动时,我们不可能同时准确地测定出它在某一时刻的位置和运动速度,当然也就不能描绘出它的运动轨迹了。这并非我们的仪器不够准确,而是因为这是原子本身的特性。在量子力学中有一个测不准原理,也就是说,像电子这样的基本粒子的位置的测量误差和动量的测量误差的乘积不可能 无限小。这与机械思维所认定的世界的确定性是相违背的。
香农指出,信息量与不确定性有关:假如我们需要搞清楚一件非常不确定的事,或是我们一无所知的事情,就需要了解大量的信息。相反,如果我们对某件事已经有了较多的了解,那么不需要太多的信息就能把它搞清楚。所以,从这个角度来看,可以认为,信息量的度量就等于不确定性的多少,这样香农就把熵和信息量联系起来了。 他还指出要想消除系统内的不确定性,就要引入信息。
用不确定性这种眼光看待世界,再用信息消除不确定性,不仅能够赚钱,而且能够把很多智能型的问题转化 成信息处理的问题,具体说,就是利用信息来消除不确定性的问题。
用信息论中的一个重要概念——互信息
(Mutual Information),可以解释为什么信息的相关性可以帮助我们解决很多问题。在很多时候,我们能够获取的信息和要研究的事物并非一回事,它们之间必须“有关联”,所获得的信息才能帮助我们消除不确定性,搞清楚我们想要研究的问题。在信息论里用互信息这个概念,实现了对相关性的量化度量。比如通过对大数据文本进行统计就会发现,“央行调整利率”和“股市短期浮动”的互信息很大,这证实了它们之间有非常强的相关性。而“央行调整利率”和“北京机场大量航班晚点”的互信息则接近于零,说明二者没有什么相关性,甚至无关。
香农第一定律
讲的是,对于信源发出的所有信息设计一种编码,那么编码的平均长度一定大于该信源的信息熵,但同时香农还指出,一定存在一种编码方式,使得编码的平均长度无限接近于它的信息熵。
比如要对汉字编码,有些字用得多,有些字用得少, 因此可以把常用字的编码做得短些,生僻字的编码做得长些,但是不论怎么做,编码的平均长度一定会超过汉字的不确定性,即它们的信息熵
,这是香农第一定律的第一层意思。同时,香农第一定律还有第二层意思,也就是说一定存在一种 (最优的)编码方法,使得每个汉字的平均编码长度可以非常接近它的不确定性 (信息熵)。至于怎么才能做到,霍夫曼 (Huffman )给了一个非常简单的方法——只要把最短的编码分配给最常见的汉字即可。这种编码方法具有通用性,又称为霍夫曼编码
,它可以被认为是对香农第一定律的补充。
香农第二定律
,通俗地讲就是信息的传播速率不可能超过信道的容量。
现代通信手段的本质,就是以相对低廉的成本让人们获得人脉,而媒体行业的不断进步,本质上是不断地在为企业拓宽对外连接的带宽,使得它们做生意越来越方便。
最大熵原理
:当我们要对未知的事件寻找一个概率模型时,这个模型应当满足我们所有已经看到的数据,但是对未知的情况不要做任何主观假设。
交叉熵
:它可以反映两个信息源之间的一致性,或者两种概率模型之间的一致性。当两个数据源完全一致时,它们的交叉熵等于零,当它们相差很大时,交叉熵也很大。
大数据的科学基础是信息论,它的本质就是利用信息消除不确定性。
现有产业+摩尔定律=新产业
现有产业+大数据=新产业
现有产业+机器智能=新产业
通过上述对历次技术革命中商业模式变迁的分析,我们可以得到这样三个结论:
- 技术革命导致商业模式的变化,尤其是新的商业模式的诞生。
- 生产越来越过剩,需求拉动经济增长的模式变得不可逆转。同时,单纯制造业的利润越来越低,那些行业越来越没有出路。相反,人们对服务的需求越来越强烈。在IT时代,唱主角的公司逐渐从制造设备的IBM、DEC、爱立信、诺基亚和惠普等公司,变成了提供软件和服务的微软、甲骨文和Google等公司。
- 商业模式的变化既有继承性,又有创新性。工业革命导致了产品需要靠推销才能卖出去,第二次工业革命导致了广告业的兴起,推销的方式从展示变成了做广告,而这两者之间是有联系的。作为创新的一方面,第二次工业革命导致了商业链的出现;到了信息时代,商业链得到了发展,这是继承性的一面;而服务业的重要性突显,这是其创新性的一面。