Abstract:《智能时代》是吴军老师所著,书中主要围绕大数据与机器智能展开阐述。
数据
- 狭义:所有能输入计算机并被计算机程序处理的符号介质的总称
- 广义:能被处理以表示编码的信息或知识,可被测量、收集、报告、分析、可视化
范式(paradigm,科学学概念)
一个共同体成员所共享的信仰、价值、技术等等的集合。指常规科学所赖以运作的理论基础和实践规范,是从事某一科学的研究者群体所共同遵从的世界观和行为方式。
科学研究发展的四个范式:描述自然现象的实验科学,以牛顿定律和麦克斯韦方程等为代表的理论科学,模拟复杂现象的计算科学,数据密集型科学
每一次技术革命都会围绕一个核心技术展开:蒸汽机——>电——>计算机和半导体芯片——>大数据与机器智能
数据密集型科学
- 产生背景:多维度和多变量导致很大的不确定性,虽还不能解释其因果关系,但可从足够多的数据中发现相关性从而把握事物的发展轨迹
- 大数据:源于需求,得益于技术的发展
- 数据的产生:互联网宽带化、移动互联网和物联网技术与应用
智能化时代
- 大数据与机器智能相伴而生,促进物联网从感知到认知并只能决策的升华
- 计算无所不在,软件定义一切,数据驱动发展
- 时代特征:以大数据应用、智能化为标志
- 如何在智能时代跨越思维的不连续性?
大数据解决问题的本质:用不确定的眼光看待世界,再用信息来消除这种不确定性
世界的不确定性来自两方面:
- 影响世界的变量太多以至于无法用数学模型来描述
- 来自客观世界本身的不确定性(宇宙的特性)
解决智能问题:将问题转化为消除不确定性的问题,而大数据则是消除不确定性的关键
现有产业 + 新技术 = 新产业
信息论:建立在不确定性上的理论
信息熵:将世界的不确定性与信息相联系
信息熵(C.E.):信息的度量,描述信源的不确定度
研究大数据与机器智能的基石
要消除不确定性,就要引入信息,而引入多少信息取决于系统中的不确定性有多大(——>谁掌握信息,就能获得财富)
互信息(Mutual Information):信息的相关性
香农第一定律(信源编码定律):对信源发出的所有信息设计一种编码,则编码的平均长度一定大于该信源的信息熵;且一定存在一种编码方式,使得编码的平均长度无限接近于它的信息熵
- 霍夫曼最优编码:把最短的编码分配给最常见的汉字
香农第二定律:信息的传播速率不可能超过信道的容量
最大熵原理:当我们要对未知事件寻找一个概率模型时,这个模型应当满足我们所有已看到的数据,但是对未知的情况不要做任何主观假设(应用于机器学习)
数据 vs 数字
- 数据的范畴大得多,文字、图片、音视频等等
- 范畴随人类文明的进程不断变化、扩大
- 语料库:专门针对语音、文字的数据库
- 数据是人造物
信息
- 关于世界、人、事物的描述
- 信息可以是客观存在的,也可以是人造的
使用数据的标准流程
- 获取数据——>分析数据——>建立模型——>预测未知
数据驱动方法
- 先有大量数据,而不是预设的模型,然后用很多简单的模型去契合数据(fit data)
- 即只要数据量足够,就可以用若干个简单模型取代一个复杂模型
- 切比雪夫大叔定律:当样本足够多时,一个随机变量和它的数学期望值之间的误差可以任意小
建立数学模型要解决2个问题
- 找到合适的模型
- 模型参数
大数据的特征
- 体量大Vast
- 多维度variety
- 完备性
变智能问题为数据问题
计算机自动回答
- 7类问题:What,when,where,which,who,why,how
- 前5类已经可以回答的很好,难的是why、how
思维方式决定科学成就
工业革命:机械思维的结果
机械思维的核心思想:确定性(可预测性)和因果关系
爱因斯坦和牛顿的思维方式是一致的:建立在确定性(绝对时空)的基础上
机械思维的局限性:否认不确定性和不可知性
张首晟教授用3个公式概况人类科学文明的最高成就:
- 爱因斯坦质能转换公式:$E=me^2$
- 量子力学测不准原理
- 熵的定义
从因果关系到强相关关系
技术改变商业模式
- 技术革命导致商业模式的变化,尤其是新商业模式的诞生
技术的拐点
- 拐点:重大科技图片常常需要酝酿很长时间,技术进步是个缓慢的量的积累,当量积累到一定程度就会在短时间内取得质的突破,然后新科技全面迸发,此即拐点
大数据形成的技术条件:从数据的产生、存储、传输、处理四维度分析
- 数据的产生:电脑 & 传感器 & 已有信息数字化
- 信息的存储:存储技术的进步,如SSD
- 传输(从采集端到存储端): 移动通信
- 处理:算力 & 并行计算
机器学习
- 不断迭代进步的过程,即“期望最大化(Expectation Maximization)”,只要事先定出一个学习目标,这些算法就会不断优化模型,以越来越接近真实情况;算法迭代次数越多,学习得越深入,则得到的模型效果越好
- 机器学习方法不可能每家公司都自己去研究,最终会由专业公司为大众提供机器学习服务
数据安全与隐私保护
- 对数据安全性和隐私保护的诉求
- 数据安全:保证用户数据不损坏 & 保证数据不被偷走或盗用
大数据应用
体育
农业
医疗
律师
记者、编辑
计算机写作
- 计算机写作的层次
- 书写完整的句子
- 组织几个句子构成符合逻辑的段落
- 给予特定格式或写作模板,能清晰传递信息
- 能不限定格式地写作内容,达到一般人写作水平
- 能达到专业记者、作家、学者水平
- 目前计算机已达到第3层次