人工智能技术 - Huodongjia.com · 2017. 12. 27. · 2017.thegiac.com 目录 1 背景介绍...

Post on 28-Aug-2020

0 views 0 download

Transcript of 人工智能技术 - Huodongjia.com · 2017. 12. 27. · 2017.thegiac.com 目录 1 背景介绍...

2017.thegiac.comwww.top100summit.com

人工智能技术如何在教育行业落地

苗广艺学霸君技术VP

2017.thegiac.com

个人简介

• 毕业于中科院计算机专业,模式识别方向

• 先后就职于央视网、搜狐、YY、奇虎360

• 2014年加入学霸君,目前担任技术VP

2017.thegiac.com

目录

1 背景介绍

智慧题库

自动批改

自适应学习

总结

2

3

4

5

2017.thegiac.com

学霸君是一家面向K12的智能化教育公司

• 线上流量入口

• 学习数据采集

• 学习交互社区

碎片化学习场景 课外补习场景 课内学习场景

学习陪伴工具

• 首创滴滴打车模式

• 首创数据工厂

• 首家将数码笔引入教学,

实现线上直播互动

滴滴打老师

• 数据驱动,实时测评

• “有序题组” 实现教学重构

• 自适应题库替代题海战术

2C:线上1对1授课

• 主观题自动化批改解放老师

• 学校智能化数字化再造实现“Ai学 inside”

• 自适应题库替代题海战术

2B:智慧教育平台

2014.1 2015.4 2016.2

500万美金 5000万美金 1亿美金

A轮 B轮 C轮

2017.thegiac.com

人工智能的几个层次

p 基础层

• 云计算、芯片、TF等框架

p 中间层

• 语音识别、人脸识别、图像识别

p 应用层

• AI+行业、行业+AI学霸君定位

2017.thegiac.com

行业+AI 的关键点

p 数据

• 大量实际真实场景的数据

p 行业知识

• 需要多年积累,对具体业务非常熟悉

• 教育行业:教研知识,教学常识,学科知识

p 工程与系统

• 最终产品是一个复杂系统

• 不存在“一招制胜”的算法

2017.thegiac.com

秒出答案:

题干解析答案详解点评考点: 认识考点 考点例题 命题方向

学霸君App:拍照搜题

学生:遇到难题对准题目 拍照 框选范围

2017.thegiac.com

p 形变

• 褶皱,扭曲

• 纸面透视严重

p 模糊

• 抖动,失焦

• 摄像头差

p 版式复杂

• 插图,复杂排版

• 数学、化学公式

p 干扰

• 手写,划线

• 其他物体

题目识别OCR难点

2017.thegiac.com

拍照题目OCR识别

p识别内核

• 中文:CNN• 英文:LSTM

2017.thegiac.com

80万套 试卷

8,000万道 题目

100亿次 搜索

仅有数量是远远不够的,我们需要 智慧题库

拍照搜题积累了海量题库

2017.thegiac.com

迈向更智能数据认知模拟

2017.thegiac.com

通过算法来结构化题目

2017.thegiac.com

• 自动识别题目属性(如题号、分值、题目类型,选择题选项,填空题空格位置)

题目格式结构化

2017.thegiac.com

若函数<tex> f ( x ) = \frac{3a-1}{\sqrt{1-ax}} </tex>在区间

<tex>[ 0 , 1 ]</tex>上单调递增

识别算法

渲染算法

数学公式LaTeX化

2017.thegiac.com

低成本人力

流水化生产题目

试卷

书本

WordPDF

图片

高效数字工厂

结构化题目

题库

流水化加工

自动化算法 系统

训练算法

入库

反馈

2017.thegiac.com

通过算法提高生产效率

书本

结构化题目题库

目录制作(版面分析、OCR)切割扫描

框题 挂靠目录(版面分析、OCR)

去重(搜索,NLP)

结构化录入(版面分析、OCR、公式识别)

双重质检(NLP)

2017.thegiac.com

难点:短文本、多层次、需要语义/公式层面信息

题目知识点分类

2017.thegiac.com

结构化知识点

2017.thegiac.com

通过算法提高生产效率

单题

结构化知识点

题库

老师团队:兼职 + 全职

众包体系

众包标注知识点

自动化算法 系统

2017.thegiac.com

特征提取

• 获取题目结构化信息• 对不同学科进行专门分词处理• 提取公式,提取公式特征

知识点分类算法

神经网络分类

• CNN+RNN• 多模型Ensenble

结果过滤

• 筛选出预测置信度较低的题目,交给人工确认

后处理

• 预测1-4级知识点结构• 用上层知识点约束下层

2017.thegiac.com

使用场景

手写笔记同传技术

2017.thegiac.com

保留纸笔写字的传统习惯,

采集的数据更有真实价值

2017.thegiac.com

学校里常规使用

2017.thegiac.com

自动批改

学校现状 未来情况

老师每天至少花费2个小时批改作业

学生做题数据全量电子化

系统自动批改作业

老师随时查看作业报告

2017.thegiac.com

自动批改算法架构

批改结果

学生做题的笔记数据

题目答案获取

版面分析

手写识别

知识点分析符号语言处理

答案的变式处理

搜索匹配

2017.thegiac.com

题目与学生笔迹

学生手写笔迹:

题干:

2017.thegiac.com

学生笔迹版面分析

文本行提取

公式定位

2017.thegiac.com

端到端识别(CNN+LSTM+CTC)

卷积层 解码层多层RNN

f(x)是减

函数

2017.thegiac.com

基于2D空间结构识别

算法主要步骤:

1. 字符切分

2. 字符识别

3. 公式结构解析

4. 后处理

2017.thegiac.com

基于搜索匹配的批改

参考答案:

数学符号语言处理

批改结果:

匹配

2017.thegiac.com

解答题的自动批改:给步骤分

批改结果

学生做题的笔记数据

关键步骤提取答案获取

版面分析

手写识别

知识点分析符号语言处理

答案的变式处理

搜索匹配• 答案• 关键步骤

2017.thegiac.com

多个关键步骤的批改

M个关键步骤:

N行手写数据:

关键步骤1

关键步骤2

最终得分 = 答案分数 + 步骤1分数 + 步骤2分数

2017.thegiac.com

作业自动批改

2017.thegiac.com 34

缩小学习闭环时间

2017.thegiac.com

学情分析

2017.thegiac.com

解答题批改引来的问题

几个问题:

• 关键步骤如何提取?

• 多种解法如何处理?

题干 解题步骤自动解题算法

多种解法

关键步骤

精细知识点

答案

2017.thegiac.com 37

2017.thegiac.com

高考机器人Demo

2017.thegiac.com

解题算法架构

题目文本数据

解题步骤

NLP 形式化描述语言

若干知识元

推导过程

生成语言

中间状态

结束

是否获得答案

状态切换

2017.thegiac.com

2017.thegiac.com

知识图谱

2017.thegiac.com

IRT理论:Item Response Theory

个性化学习

广泛应用于心理和教育测量领域

2017.thegiac.com

应用:学生能力评估

学生ID

题目ID

学科ID

知识点 答题情况

1000 2000 数学 集合关系

1000 2001 数学 集合关系

1001 2002 英语 定语从句

1001 2003 英语 感叹句

… … … … …

答题数据

数据分析

学生能力数据

学生ID

学科 知识点 能力值

1000 数学 集合关系 1.12

1001 英语 定语从句 -0.23

1001 英语 感叹句 0.87

… … … …

题目属性数据

题目ID

难度 区分度 答对概率

2000 0.67 0.4 23%

2001 0.54 0.56 5%

2002 -1.2 1.2 4.2%

2003 -0.12

0.76 26%

… … … …

用以精准评估

用以完善教学数据

2017.thegiac.com

Deep Knowledge Tracing (DKT)输出层

(预测学生的答题正确的概率)

输入层(学生的答题序列)

隐藏层(学生的能力特征)

核心:

• 以RNN为基本架构

• 以学生的能力作为隐藏的特征

• 预测学生答对概率,或者结合

IRT模型,将训练得到的能力特

征作为输入

利用RNN训练学生能力模型

2017.thegiac.com

传统Item Response Theory (IRT) 深度学习RNN 知识图谱

自适应学习模型

拟合学生能力及题目难度等属性

与IRT模型组合,提升预测学生答题对错的精度

跨知识点推题、规划学习路径

自适应学习框架

2017.thegiac.com

时间

时间

时间

千人千面

2017.thegiac.com

对于精力的消耗

算法

有效训练数据收集

针对具体行业背景

深度定制研发系统

2017.thegiac.com

数据收集

网上公开手写数据集

花钱雇人力写字

算法辅助生成数据

使用学生每天的作业数据

手写数据为例:

2017.thegiac.com

深度定制的算法与系统

基于点阵笔的笔记数据

结构化题目格式

LaTex公式格式

四级教研知识点体系

结构化知识点

自动解题机器人

基于中考高考的知识图谱

手写公式识别

自动批改 自适应学习

自然语言处理 逻辑推理

2017.thegiac.com

带来的困扰

p 算法不通用

• 各种场景都需要定制,开发量很大

• 业务变动,不可复用,基本要重新开发

p 对个人依赖度较大

• 只有实际开发者最懂,别人接手时间很长

p 对人才复合要求较高

• 懂算法,懂业务,懂教研

• 有较好的系统架构和编码能力

2017.thegiac.comwww.top100summit.com

谢 谢 !

苗广艺 学霸君技术VP微信号:miaoguangyi