Abstract：数字媒体技术课的课堂笔记，按课程流记录的，不全，没怎么整理。

Chapter1 多媒体技术基本概念

2M+2O：Multi-media，多机并行处理，object（面向对象），open

计算机三大能力：计算能力，存储能力，传输能力

媒体的定义和分类

媒体的分类
- 感觉媒体
- 表示媒体：给计算机看的，编码方式
- 显示/表现媒体：显示器，扫描仪
- 存储媒体：外存，HDD，磁盘阵列
- 传输媒体
多媒体的特征：集成 & 交互 & 多维性
- 交互性：用户获取信息是主动而非纯被动

多媒体软硬件平台

多媒体硬件

视频信号IO接口卡
音频信号IO接口卡
视频、音频压缩解压缩
视频、音频信号实时处理

驱动软件（Driver）：在初始化引导程序作用下把它安装到系统RAM中常驻内存；一个驱动器对应一种硬件设备的接口

驱动器接口模板：AB（地址总线）+ DB（数据总线）+ CB（控制总线）

视频/音频支持系统或视频/音频核心部件：多媒体计算机的核心软件

专用芯片的类型

固定功能的芯片
可编程的处理器

数字化后的音视频处理：数据量大，需要高速度和输入实时性

片上系统（SOC，System on a chip）

单核 & 多核处理器

处理：CPU，GPU，OPU（加速处理器）， ASIC（专门集成电路），FPGA（现场可编程逻辑门阵列），Gate，TPU（张量处理器，专为TensorFlow设计）

传输：总线（CPU内部，系统总线，I/O总线）

数据压缩和编码技术

计算机三大板块：处理，存储，传输
多媒体压缩：必要性（有需求），可能性（大量冗余）
统计冗余的分类：时间冗余，空间冗余

多媒体网络与分布式处理

分布式：分布而自治，逻辑上整体

超媒体=多媒体+超文本

SAN：存域网

虚拟现实技术

生成
交互：人用自然技能与虚拟实体进行交互
集成各领域：计算机图形学，AI，人机交互，传感与测量技术，仿真，微电子

网购：事务处理，I/O密集型任务

ISDN：综合业务数字网络

人擅长形象思维：通过视听获取信息

Chapter2 多媒体计算机系统的组成

组成：声卡，视频编码卡，图像采集卡

常用I/O设备

鼠标

点输入，伴随GUI（图形用户接口）的普及；机械鼠标、光学鼠标
性能指标：分辨率，与计算机的接口（串口，USB口，PS/2口）

条码设备

图像扫描仪

图像输入设备

触摸屏

电阻式
电容式
红外线式
声表面波式

显卡

作用：对图形函数进行加速
显存：32MB或64MB

绘图仪

打印机

通信设备

调制解调器（Modem）

利用模拟信号传输线路传输数字信号

网卡（NIC，网络接口卡）

工作原理：整理主机发往网线上的数据，并将数据分解为适当大小的数据包之后向网络发送出去
局域网最基本的部件之一
作用：流量控制，矫形

传真卡

存储设备

云计算：并行计算+虚拟化

并行不容易实现：比如若程序是串行的，必须顺序实现，故很难实现

虚拟存储：软件实现，把物理上相互独立的存储模块用软硬件集中起来管理，形成逻辑上的虚拟存储单元从而使主机访问。

物理：面向计算机，逻辑：面向用户
虚拟存储分为对称式和非对称式
作用：提高存储利用率，降低成本，简化存储管理

USB设备

USB（Universal Serial Bus，通用串行总线）：

主要特点：即插即用，可热插拔，自动配置
硬件结构
软件结构
数据流传输

数字摄像设备

CCD（Charge Coupled Device，电路耦合元件）
CMOS（金属氧化物半导体元件，Complementary Metal-Oxide）

Chapter3 数字图像处理技术

信号处理的基本术语

采样与量化

信号的数字化处理包括2个步骤：
- 采样：信号在时间上的离散化
- 量化：信号在幅度上的离散化，用二进制描述

DFT和IDFT

DFT（Discrete…，离散傅里叶变换）：将时域信号转变成频域信号的一种数学方法
IDFT（Inverse）：反变换

小波变换

小波：在有限周期内的波形，它的平均值为0
正弦波是傅里叶变换的基础，无限定周期，平滑且可预测；而小波信号是不规则不对称的
小波变换：将信号转变成很多不同比例的小波的叠加
优点：解决锯齿效应和噪声

图像数据压缩基础

色彩

从人的视觉系统来看，色彩：色调，饱和度，亮度【H(hues)表示色相，S(saturation)表示饱和度，B（brightness）】
图像深度：位图中记录每个像素点所占的位数，决定彩图中可出现的最多颜色数
真彩色（RGB）：图像深度为24位；
伪彩色：
调配色：通过每个像素点的RGB分量分别作为单独的索引值进行变换，经相应的色彩变换表找出各自的基色强度，用变换后的RGB强度值产生的色彩；与伪彩色一样都是采用查找表
显示深度：屏幕上显示的点的位数
色调和色相

视觉系统对颜色的感知

彩色空间及其变换

RGB颜色模式：对RGB进行8位数编码可形成16万种颜色
Lab颜色模式：发光率（luminance）+两个颜色轴（a,b）
HSB
彩色空间的线性变换标准：
- YUV颜色模式
- YIQ：适合计算机编码使用，Y是亮度信号
- CMYK（把四种混合色作为颜色空间的基础，cyan、magenta、yellow、black）：靠颜色相减；彩色打印系统
颜色模型的色域：一个色系能够打印的颜色范围

图像的种类

标准单色图，标准灰度图
256色标准图像，24位标准图像

图像数据压缩的可能性：冗余（rebundancy）

统计冗余：统计特征上的冗余；
- 动态图像序列——时间冗余（帧与帧的重复）
- 静态单帧图像——空间冗余
信息熵冗余：
- 熵（entropy）
- 信息熵：定义为一组数据所表示的信息量，$E=\sum_{i=0}^{N-1}p_ilog_2p_i$，N为数据的种类(码元)个数
结构冗余
知识冗余
视觉冗余：图像中存在很多人眼感知不到的细节，人眼的分辨力为64灰度级，而图像为256灰度级

图像压缩算法

评价压缩算法的指标：
- 压缩比：压缩前后数据大小的比值
- 算法复杂性和运算速度
- 失真度
压缩算法分类：
无损编码：无任何失真
有损编码：有一定偏差或失真，但不影响视觉或听觉效果
行程长度编码
香农-范诺算法
哈夫曼编码（需要统计概率；没有香农精确）
算术编码
词典编码
预测编码：根据像素间的相关性来预测像素的灰度；分为线性预测编码（DPCM——差分脉冲编码调制） + 非线性预测编码
变换编码：将时域信号变换到频域信号上进行处理
模型法编码：利用CV和计算机图形学知识对图像信号的分析与合成，对特定图像建模，并根据模型确定特征参数

图像文件的一般结构

图像图形格式都是代码组成的：文件头+文件体（压缩算法，图像数据）+文件尾

常用图像、图形文件的格式

矢量图和位图：
矢量图：指令绘图
位图：点阵绘图
GIF
TIF格式：Tagged Image Format File文件，支持任意大小的图像，从单色二值图到24色真彩图
PNG：把图像文件压缩到极限以利于网络传输，但能保证图像品质
JPEG标准：变换编码
- 2种工作方式：顺序方式 & 渐进方式
- 实现方式：谱选择法；逐次逼近；阶梯方式
- 3种级别编码算法：基本系统、扩展系统、无失真系统
- 基本系统算法：DCT（离散余弦变换）
- JPEG2000：高压缩率——离散小波变换（DWT）；无损压缩——预测法；渐进传输；感兴趣区域压缩

动态图像压缩

动态图像分类：
- 视频
- 动画
特点：连续性，时延性，相关性
MPEG1标准：
- 用于多媒体存储与再现，如VCD
- MPEG数据流采用分层结构：
  - 采用2种帧间编码技术：预测 & 插值
  - MPEG算法的2个基础：基于16x16的运动补偿的缩短时间冗余；基于DCT的缩短空间冗余
  - MPEG考虑3种画面：内帧（I） & 预测帧（P） & 内插帧（B）
    - P通过I获得（前向预测），B通过I和P获得（双向预测）
    - 原因：考虑随机访问视频的重要性；运动补偿插值可显著降低位速率
  - 运动补偿预测
  - 缩短空间冗余度
MPEG2标准：
- 支持DVD
- 基本算法与MPEG1一致
- 与MPEG1的区别：支持电视的隔行扫描格式；支持可分级的可调视频编码，可提供多种质量的视频业务
H.261 标准：H系列主要用于视频电话会议
- 视频压缩算法核心：运动估值预测 & DCT编码
- 用于视听业务
- CIF格式
H.263 标准：
- 在现有的电话网上传输动态图像
- 基于预测差分块编码系统
- 帧内编码——DCT变换、哈夫曼码
- 帧间编码——运动估计和补偿，只对预测误差编码
- QCIF格式

Chapter4 音频

音频编码基础

音频处理

音频传播媒体特征
音频信号：数字 & 分析-合成

音频编码基础

频带宽度：频带越宽音质越好
- 人耳听到的频率：20HZ ~22KHZ
信噪比（SNR）：有用信号与噪声之比
- 度量方法：主观度量法
音频信息分类：不规则声音（指不携带信息的噪声） & 规则声音（语音、音乐、音效）
声波：模拟信号，可分解为一系列正弦波的线性叠加

基频与音调：

音频三要素：音调，音色

音调由频率 w 决定
谐波
泛音：$nw_0$ 称为$ w_0$的高次谐波分量
音色由混入基音的泛音所决定
频带：频带宽度
音频信号处理方法：采样（时间离散化）——量化（频率离散化）
音频存储格式：.wav（波形格式）
声音质量的度量：用带宽度量
- DAT——CD——FM——AM——数字电话（由高到低）
- 度量方法：
  - 信噪比（SNR）：客观度量
  - 平均意见得分（MOS，mean opinion score）：主观意见得分，1~5（失真级别反映质量）

音频信号压缩技术

脉冲编码调制（PCM）

声音数字化：采样——量化
量化：均匀量化 & 非均匀量化

增量调制（DM，data modulation）：属于预测编码技术

原理：对实际采样信号与预测采样信号之差的极性值进行编码，编码值只有0或1，故又称1比特编码
存在的问题：斜率过载，粒状噪声

自适应脉冲编码调制（APCM）：

根据输入信号

差分脉冲编码调制（DPCM，Differential Pulse code modulation）

自适应差分脉冲编码调制（ADPCM）：预测编码

原理

子带编码（ SBC）

音频编码标准

ITU-TG （国际电信同盟）系列声音压缩标准

G.711：1972，为电话质量的语音压缩而制定，使用 PCM
G.722：1988，为调幅广播质量的音频信号压缩而制定，使用 SBC + ADPCM 相继编码
G.723：1996，使用多脉冲激励最大似然量化算法（MP-MLQ），用于可视电话和 IP 电话系统
G.728
G.729
比较

MP3（MPEG-Layer3）压缩技术标准

可伸缩性

MP4 压缩技术

以“知觉编码”为关键技术的 a2b 音乐压缩技术，压缩比达15：1

MIDI（乐器数字接口）

MIDI 是一个协议，只包含用于产生特定声音的指令（调用乐器音色、声音强弱、持续时间等）

声卡

多媒体：集成 + 交互
声道：单声道，立体声，四声道环绕（左声道、右声道、左环绕、右环绕），5.1声道

语音识别（sound Recognition）

难点：非特定人群、特殊场景的识别（如感冒患者的声音、各种口音、噪音环境）
发展历程
技术：特征提取，模式匹配
语音识别单元的选取：单词，音节，音素
模式匹配技术：
- 动态时间规正技术
- ANN
语音识别系统的类型：
- 根据对说话人的依赖程度可分为：特定人识别识别系统（加语音签名），非特定人识别系统
- 孤立词识别，连续词识别
应用：数据库输入和询问应用，语音命令和控制应用

Chapter5 光盘存储原理和相关标准

CD-ROM

VCD：更小的坑道，更紧密的空间轨道

DVD

BD-ROM

操作系统：文件，进程

超文本：以非线性的网状结构组织信息

基于内容的信息检索（CBR）：

根据媒体对象的语义和上下文联系进行检索
信息：图像，视频，音频
基于内容的视频检索：
- 基于关键帧的检索
- 基于运动的检索

人的敏感声频：20 HZ ~ 20/22 KHZ

PC 机处理人耳能听到的音频的频率范围是20HZ ~ 44.1KHZ（PC 机要乘以2）

MIDI：乐器数字接口，一种通信协议

采用多媒体技术的主要目的：增强计算机的处理能力

Wavelet：小波变换

JPEG 编码：

DCT——离散余弦变换；变换编码，时域变频域
在量化环节会损失数据：当频率系数经过量化后，将频率系数由浮点数转变为整数，这才便于执行最后的编码。不过，经过量化阶段后，所有数据只保留整数近似值，也就再度损失了一些数据内容

DCT 变换是最小均方误差准则下得出的次最佳正交变换

动态图像 —— 采用运动估计：运动估计的基本思想是将图像序列的每一帧分成许多互不重叠的宏块，并认为宏块内所有象素的位移量都相同，然后对每个宏块到参考帧某一给定特定搜索范围内根据一定的匹配准则找出与当前块最相似的块，即匹配块，匹配块与当前块的相对位移即为运动矢量。视频压缩的时候，只需保存运动矢量和残差数据就可以完全恢复出当前块。

MPEG：音视频的压缩标准（不是传输标准）；高达200：1的压缩比；帧间编码和运动补偿

MPEG4：最大特点是更强的交互能力，允许用户加入其中

视频点播：

VOD：使用 RAID 技术（磁盘阵列）
提供实时数据流：流调度算法

Huffman：无损编码

图像三要素：色调（由波长决定），饱和度，亮度

声音三要素：音调（与频率有关），音强，音色（由混入基音的泛音决定）

YUV：数字化位数为8：4：4

CMYK：相减色

MP3：MPEG-1 Audio Layer3

声卡 MIDI 音效合成的方式：FM 合成，波表合成

RGB 4：4：2可生成的颜色数为：1024（2的10次方，4+4+2=10）