计算机科学前沿技术 Frontier Technologies in Computer Science

36
© Frontier Technologies in Computer Science 计计计计计计计计计 Frontier Technologies in Computer Science 计计计计http://en.tjcities.com/ index.php/works 计计计计[email protected] 计计http://weibo.com/willtongji 计计计计计计 http://en.tjcities.com/ index.php/works

description

通识卓越课程 http://en.tjcities.com/index.php/works. 计算机科学前沿技术 Frontier Technologies in Computer Science. 课程网站: http://en.tjcities.com/index.php/works 联系方式: [email protected] 微博: http://weibo.com/willtongji. 课程内容. 第 9 章 人工智能前沿 第 10 章 机器学习的研究 第 11 章 搜索引擎技术 第 12 章 集体智慧与 Web 2.0 第 13 章 云计算 - PowerPoint PPT Presentation

Transcript of 计算机科学前沿技术 Frontier Technologies in Computer Science

Page 1: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

计算机科学前沿技术Frontier Technologies in Computer Science

课程网站: http://en.tjcities.com/index.php/works

联系方式: [email protected]

微博: http://weibo.com/willtongji

通识卓越课程http://en.tjcities.com/index.php/works

Page 2: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

课程内容• 第 1 章 概述• 第 2 章 计算机硬件的发展

• 第 3 章 高性能计算• 第 4 章 现代操作系统• 第 5 章 计算机网络新技术• 第 6 章 可信系统和可信软件• 第 7 章 数据库技术的发展• 第 8 章 数据挖掘及其应用

• 第 9 章 人工智能前沿• 第 10 章 机器学习的研究• 第 11 章 搜索引擎技术• 第 12 章 集体智慧与 Web 2.0

• 第 13 章 云计算• 第 14 章 物联网技术• 第 15 章 服务科学与服务计算• 第 16 章 智慧地球

Page 3: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

第 12 章 集体智慧与 Web 2.0

Page 4: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

本质上, Web 2.0 可以被分为两个不同的部分:其一是大量丰富的交互体验,这使得网页摆脱了静态页面,而看起来更像是一个应用。其二则是它的社会化属性,这使得将集体智慧汇集在一起成为可能。

——Daniel Nations, webtrends.about.com

Page 5: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

5

本章内容

• 集体智慧导言– 什么是集体智慧– 集体智慧与 Web 2.0– 集体智慧在 Web 领域的应用– 集体智慧与机器学习

• 搜索排名– 搜索引擎与信息检索– 基于内容的度量方法– 基于链接的度量方法

Page 6: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

6

本章内容 ( 续 )

• 推荐系统– 推荐系统的诞生和现状– 推荐系统的经典案例── Netflix– 设计推荐系统的基本方法

• 集体智慧中的常用算法– 贝叶斯分类器– 决策树分类器– 神经网络– k- 最近邻– 优化技术

Page 7: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

7

集体智慧导言

• 人们使用集体智慧( Collective Intelligence )这一术语已经有十多年之久,随着新型通信技术的出现,尤其是进入 Web

时代以后,这一术语也变得日趋的流行和重要。

Page 8: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

8

什么是集体智慧

• 纵观当今的 Web 领域,当我们讨论集体智慧这一概念的应用时,通常是指把一部分人的行为、偏好或思想数据搜集起来并加以分析,从而寻找新的发现。

• 在维基百科( Wikipedia )上,集体智慧被定义成为是一种共享的或者群体的智能,它是从许多个体的合作与竞争中涌现出来的。

Page 9: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

9

什么是集体智慧

• 对于集体智慧的研究,实际上可以被认为是一个属于生物学、社会学、商业、计算机科学、大众传媒和大众行为的多学科课题,其研究的领域从夸克到细菌、植物、动物,直至人类社会各个层次中出现的群体行为。

Page 10: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

10

集体智慧与 Web 2.0

• Web 2.0 是由计算机领域著名的出版公司 O’Reilly 的首席执行官 Tim O’Reilly 在 2003 年提出的一个概念。

• Web 2.0 指的是基于 Web 的下一代社区和托管服务,比如社会化网络、维基百科、大众分类等等,它能够帮助互联网用户更好的协作和分享。

Page 11: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

11

集体智慧与 Web 2.0

• Web 2.0预示着技术人员与最终用户使用互联网平台方式的变化

• 大量的互联网用户需要更好用、更个性化、更多样的内容、服务和应用,这就是互联网发展的推动力

• 围绕着如何利用这样大规模的用户群体自己来创造、贡献和共享价值,人们又开始思考和探索如何激活网络效应,利用大规模群体智慧的参与架构与社会计算模式

• 在这一过程中,集体智慧的相关理论与技术扮演了十分重要的角色

Page 12: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

12

集体智慧在 Web 领域的应用

• 维基百科 • Google 搜索引擎 • 其他应用

Page 13: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

13

集体智慧与机器学习

• 集体智慧的相关理论与技术涉及到了大量的机器学习理论 • 将一组数据传递给算法,并由算法推断出与这些数据的属性相关的信息

• 借助这些信息,算法就能够预测出未来有可能会出现的其他数据

Page 14: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

14

搜索引擎与信息检索

• 搜索引擎技术是集体智慧在 Web 领域里的一个重要应用 ,主要包含搜集文档 、建立索引 、结果排序等

• 全文搜索算法是最重要的集体智慧算法之一,事实证明,人们在这一领域里所产生的新想法已经创造出了大量的财富

• 信息检索是研究对大规模信息进行快速、准确而全面地获取、组织、挖掘和提供访问的一门学科,其目标是要从大规模文档集合中返回满足用户需求的文档子集

• 信息检索涉及自然语言处理、机器学习、数据挖掘、并行分布式处理等多个领域的相关理论和技术

Page 15: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

15

基于内容的度量方法

• 单词频度 • 文档位置 • 单词距离

Page 16: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

16

基于链接的度量方法

• 到目前为止,我们对评价度量的讨论都是基于网页内容本身• 对搜索结果加以改善,我们可以考查外界就该网页所提供的信息——尤其

是谁链向了该网页 • 基于网页链接的度量方法,最为简单的做法,是针对每个网页统计其链接

的数目,并将链接总数作为针对该网页的度量 • 基于链接的度量方法中

• 最著名的算法是 PageRank 算法

Page 17: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

17

基于链接的度量方法

• 通过一个具体的例子来看一看 PageRank 的计算方法 • 图中,网页 B 、 C 和 D均指向 A ,它们的 PageRank值已经计算得

出。 B还指向另外三个网页,而 C 则指向其他三个网页, D只指向 A 。为了得到 A 的 PageRank值,我们将指向 A 的每个网页的 PageRank值除以这些网页中的链接总数,然后乘以阻尼因子 0.85 ,再加上一个 0.15的最小值

• PR(A) = 0.15 + 0.85 * ( PR(B)/links(B) + PR(C)/links(C) + PR(D)/links(D) )

• = 0.15 + 0.85 * (0.5/4 + 0.7/5 + 0.2/1)

• = 0.54525

Page 18: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

18

推荐系统

• 全球的网络化、信息化进程深刻地改变了人类的生存方式, Internet 技术的应用给人们生活和工作的各个层面带来了深刻的影响

• 网络上的“信息过载”和“信息迷航”问题日益严重 • 解决这些问题的关键在于将 Internet 从被动接受浏览者的请求转化为主动感知浏览者的信息需求

Page 19: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

19

推荐系统

• 推荐系统中的推荐技术主要分为三类 – 基于内容的推荐技术 – 协作型过滤推荐技术 – 混合推荐技术

• 几乎所有的大型电子商务系统,如Amazon.com 、 eBay 、 China-pub等,都不同程度地使用了各种形式的推荐系统

• 各类图书馆的联机数据检索、网络信息检索、社交网络、在线信息共享社区等各种信息服务都开始应用相关的推荐算法

Page 20: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

20

推荐系统

• 协作型过滤通常的做法是对一大群人进行搜索,并从中找出与当前人品味相近的一小群人

• 算法会对这些人所偏爱的其他内容进行考查,并将它们组合起来构造出一个经过排名的推荐列表

Page 21: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

21

推荐系统的经典案例── Netflix

• Netflix 是美国最著名的流媒体影视播放服务商,它为全球上千万顾客提供 DVD电影租赁服务和影视剧在线观看服务

• Netflix拥有一个自行研发的推荐系统── Cinemath

Page 22: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

22

设计推荐系统的基本方法

• 建立模型 • 寻找相近用户

– 欧几里德距离( Euclidean distance )评价 – 皮尔逊( Pearson )相关度评价 – 其他相关度评价方法

• 为用户寻找最佳匹配 • 为用户推荐商品

Page 23: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

23

集体智慧中的常用算法

• 贝叶斯分类器 • 决策树分类器 • 神经网络 • k- 最近邻 • 优化技术

Page 24: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

24

贝叶斯分类器

• 贝叶斯分类器常用于文档处理,比如垃圾邮件过滤,基于关键字的文档分类等

• 贝叶斯分类器需要利用样本数据进行训练 ,每个样本包含了一个特征列表和对应的分类

• 以文档分类为例,所谓的特征也就是文档中出现的单词 – 一篇包含单词“ java” 的文档究竟是关于编程语言的,还是关于咖啡的。那么“编程语言”和“咖啡”就是两个分类

单词 编程语言 咖啡

Static 0.6 0.1

Drink 0.0 0.6

Island 0.1 0.2

Source 0.3 0.1

And 0.95 0.95

Page 25: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

25

优缺点

• 朴素贝叶斯分类器与其他方法相比最大的优势在于,它在接受大数据量训练和查询时所具备的高速度

• 尤其当训练量逐渐递增时更是如此——在不借助任何旧的训练数据的前提下,每一组新的训练数据都有可能引起概率的变化

• 朴素贝叶斯分类器的最大缺陷是它无法处理组合特征的情况• “在线”和“药店” VS “ 在线药店”

Page 26: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

26

决策树分类器

• 利用决策树进行分类非常简单,只要从树的根结点开始,对每个结点的判断条件进行检查 ,如果结点的判断条件满足,就走某个分支,否则,就走另一个分支

直径 颜色 水果

4 Red Apple

4 Green Apple

1 Red Cherry

1 Green Grape

5 Red Apple

Red Green

Apple Apple

Cherry Grape

Apple

直径 < 4 直径 ≥ 4

Cherry Apple

Grape Apple

Page 27: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

27

优缺点

• 决策树最为显著的优点在于,利用它来解释一个受训模型是非常容易的,而且算法将最为重要的判断因素都很好地安排在了靠近树的根部位置

• 与贝叶斯分类器相比,其主要优点是它能够很容易地处理变量之间的相互影响,却不支持增量式的训练

• 结点的数量非常庞大时,导致分类效率的降低

Page 28: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

28

神经网络

• 神经网络是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型

Page 29: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

29

优缺点

• 神经网络的主要优点是它能够处理复杂的非线性问题,并且能发现不同输入间的依赖关系

• 允许增量式训练 • 神经网络的主要缺点在于它是一种黑盒方法

Page 30: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

30

k- 最近邻

• 利用 k- 最近邻算法可以进行数值预测,比如针对一组给定的样本来构造价格预测模型

• 工作原理是接受一个用以进行数值预测的数据项,然后将其与一组已经赋过值的数据项进行比较,从中找出与待预测数据项最为接近的若干项,并对其求均值以得到最终的预测结果

相机 百万像素数 变焦能力 价格

C1 7.1 3.8x 399.00

C2 5.0 2.4x 299.00

C3 6.0 4.0x 349.00

C4 6.0 12.0x 399.00

C5 10.0 3x 449.00

Page 31: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

31

优缺点

• 能够利用复杂函数进行数值预测• 简单易懂• k- 最近邻主要的缺点在于,要求所有的训练数据都必须缺一

不可

Page 32: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

32

优化技术

• 优化不是要处理数据集,而是要尝试找到能够使成本函数的输出结果达到最小化的值

• 优化的关键是设计成本函数 • 成本函数接受一个经推测得到的题解,并返回一个数值结果

,该值越大就表示题解的表现越差,该值越小就表示题解的表现越好

• 优化算法利用该函数对各种题解进行检验,并从中找出最优解

Page 33: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

33

• 考虑包含一个变量的函数,可定义为: y = 1/x * sin(x)

• 因为该函数仅有一个变量,所以从图中我们很容易就可以找到函数的最低点

• 当面对一个带有多个变量的复杂函数时,寄希望于将其简单绘制出来以寻找最低点这样的做法是行不通的

Page 34: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

34

模拟退火

• 模拟退火,是受物理学领域中合金冷却的启发而提出的,它以一个随机推测的题解开始,然后以此为基准,随机选择一个方向,并就近找到另一个近似解,判断其成本值

Page 35: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

35

遗传算法

• 遗传算法是受进化理论启发而提出的• 它以一组被称为种群的随机题解开始• 种群中表现最为优异的成员──即成本最低者──会被选中

并通过变异或特征组合(即交叉或配对)的方式加以修改 • 我们会得到一个新的种群,称之为下一代。经过连续数代之

后,题解最终将会得到相应的改善

Page 36: 计算机科学前沿技术 Frontier Technologies in Computer Science

©

Fro

nti

er T

ech

no

log

ies

in C

om

pu

ter

Sci

ence

Thanks!

通识卓越课程http://en.tjcities.com/index.php/works