淘宝网语义分析产品、技术介绍 -...
Transcript of 淘宝网语义分析产品、技术介绍 -...
![Page 1: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性](https://reader034.fdocuments.net/reader034/viewer/2022052212/5f07eb117e708231d41f6955/html5/thumbnails/1.jpg)
淘宝网语义分析产品、技术介绍
王天舟(空海)
淘宝网-交易线-语义分析
![Page 2: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性](https://reader034.fdocuments.net/reader034/viewer/2022052212/5f07eb117e708231d41f6955/html5/thumbnails/2.jpg)
个人介绍 • 花名空海
![Page 3: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性](https://reader034.fdocuments.net/reader034/viewer/2022052212/5f07eb117e708231d41f6955/html5/thumbnails/3.jpg)
淘宝网中的文本
□ 淘宝主站:
• 30亿店铺、宝贝浏览
• 10亿计的在线宝贝数
• 千万量级交易笔数
□文本数据:
•用户评论
•商品标题、详情页
•用户query数据
•SNS、论坛等其他数据
![Page 4: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性](https://reader034.fdocuments.net/reader034/viewer/2022052212/5f07eb117e708231d41f6955/html5/thumbnails/4.jpg)
海量文本数据带来的价值和挑战
有限框架数据的补充、用户UGC信息
如何结构化、高效计算
呈现文本数据挖掘文本价值
文本源数据
抽取特征、
构建向量 评估、展现
向量算法
![Page 5: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性](https://reader034.fdocuments.net/reader034/viewer/2022052212/5f07eb117e708231d41f6955/html5/thumbnails/5.jpg)
语义分析平台架构总览
评价 详情页 SNS/分享数据 文本 数据
层次聚类 谱系聚类 聚类算法
SVM/ANN/决策树/贝叶斯
分类算法
大家印象 U站推荐 UE反馈 产品
分词/新词 特征计算层
商品标题
词之间相关 序列标注 句法分析 实体语义
北极圈
Kmeans KNN
![Page 6: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性](https://reader034.fdocuments.net/reader034/viewer/2022052212/5f07eb117e708231d41f6955/html5/thumbnails/6.jpg)
今天的话题
□相关业务场景: 标签、内容、分类打标
□相关算法和问题
□文本技术拓展
![Page 7: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性](https://reader034.fdocuments.net/reader034/viewer/2022052212/5f07eb117e708231d41f6955/html5/thumbnails/7.jpg)
文本标签服务
内容相关、相似 框架提取
文本分类
![Page 8: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性](https://reader034.fdocuments.net/reader034/viewer/2022052212/5f07eb117e708231d41f6955/html5/thumbnails/8.jpg)
单品标签 “大家印象”
![Page 9: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性](https://reader034.fdocuments.net/reader034/viewer/2022052212/5f07eb117e708231d41f6955/html5/thumbnails/9.jpg)
商品导购标签
标签范围不确定:卖家自填商品标签;买家行为标签 通过算法圈定标签,如搜索query: 1、关键字聚合(商品重合度\购买人群重合度) 2、关键字筛选(搜索UV\商品数量\购买转化) 标签范围确定:买家自然属性 BI根据以往数据确定标签范围(如:18岁以下\18岁—25岁\25岁-35岁\35岁以上)
怎么样的标签的规模是合适的,长尾标签怎么处理? 需要BI提供数据模型,对标签的规模、数量提供界定范围; 根据标签覆盖的商品数来确定需要增加的标签。
根据商品和标签的关联性,对商品进行打标。
如用户偏好点击、购买、收藏的商品;商品的标题、属性相关性;商品与商品之间的关联性
商品打标 名校大学生
北京白领
白富美 牙痛
情侣 苍老师
头层皮
惠美
小清新
海宁
真皮 深
V
禅 西湖
美女送货
24
夜市
复古
胖妞
独家
广货
村姑
原创
卡通
果粉
陌陌
屌
大妈
宅男
高端
90后
婆婆
甜蜜蜜
夜店
结婚
那些事
![Page 10: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性](https://reader034.fdocuments.net/reader034/viewer/2022052212/5f07eb117e708231d41f6955/html5/thumbnails/10.jpg)
业务主线—人的维度重组推荐
逛店铺.业务框架:
类目list 类目+属性list 频道页 大促聚合结果list Combo Shortcut …
消费者
标签重组
找到店铺
机器挖掘
标签
赞同标签
消费目的 达成
产生标签
和好友互动
标签偏好
语义分析+词库
数据转换文本
自发现
店铺导购标签
![Page 11: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性](https://reader034.fdocuments.net/reader034/viewer/2022052212/5f07eb117e708231d41f6955/html5/thumbnails/11.jpg)
标签当中的问题
标签的来源 标签的属性词义 标签的关系
![Page 12: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性](https://reader034.fdocuments.net/reader034/viewer/2022052212/5f07eb117e708231d41f6955/html5/thumbnails/12.jpg)
标签来源、分词问题
□一元分词
□二元分词
□CRF分词
夏季 新款 女装 雪纺 连衣裙
夏季 新款 女装 雪纺 连衣裙
夏季 新款 女装 雪纺 连衣裙
B E B E B E BE BM E
![Page 13: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性](https://reader034.fdocuments.net/reader034/viewer/2022052212/5f07eb117e708231d41f6955/html5/thumbnails/13.jpg)
标签中的短语、新词来源
• 互信息、聚合度、左右熵发现二元
• 前缀树发现长字符串模式
![Page 14: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性](https://reader034.fdocuments.net/reader034/viewer/2022052212/5f07eb117e708231d41f6955/html5/thumbnails/14.jpg)
序列标注问题
隐马尔可夫模型(Hidden Markov Model,HMM)
最大熵模型(Maximum Entropy Model,MEM)
条件随机场(conditional random fields,CRF)
均可以看做概率图模型的不同表现形式
![Page 15: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性](https://reader034.fdocuments.net/reader034/viewer/2022052212/5f07eb117e708231d41f6955/html5/thumbnails/15.jpg)
实体识别的标注问题
![Page 16: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性](https://reader034.fdocuments.net/reader034/viewer/2022052212/5f07eb117e708231d41f6955/html5/thumbnails/16.jpg)
标签间的关系 手机套和手机外壳 手机壳和Iphone4S 手机壳
共同的购买人群(协同过滤)…
超薄和女士
合并
标签的结构化: 类目、来源、变化、内容
从属 关联
![Page 17: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性](https://reader034.fdocuments.net/reader034/viewer/2022052212/5f07eb117e708231d41f6955/html5/thumbnails/17.jpg)
标签词语之间关系问题
![Page 18: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性](https://reader034.fdocuments.net/reader034/viewer/2022052212/5f07eb117e708231d41f6955/html5/thumbnails/18.jpg)
产品框架
数据源
标签系统
搜索
交易
用户特征
标题
详情
评价
资讯
专辑
日记
百科
功能层:
模型层: 筛选 剔出 合并
打标商品范围确定 商品重合比例 人群选择 人群重合比例
管理层: 类目、来源、变化速度、内容…
业务场景 首页 频道 搜索 场景、主题页
List …
![Page 19: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性](https://reader034.fdocuments.net/reader034/viewer/2022052212/5f07eb117e708231d41f6955/html5/thumbnails/19.jpg)
其他文本标签问题
• 标签质量判定
• 标签排序、相关性展现
• 标签合并去重
![Page 20: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性](https://reader034.fdocuments.net/reader034/viewer/2022052212/5f07eb117e708231d41f6955/html5/thumbnails/20.jpg)
内容相关、提取问题
U站内容推荐
相似Query查询
特定内容提取
![Page 21: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性](https://reader034.fdocuments.net/reader034/viewer/2022052212/5f07eb117e708231d41f6955/html5/thumbnails/21.jpg)
如何分析相关内容
• 人的行为
• 词之间相关性
• 句子、段落之间相关性
![Page 22: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性](https://reader034.fdocuments.net/reader034/viewer/2022052212/5f07eb117e708231d41f6955/html5/thumbnails/22.jpg)
同义词、近义词、词之间关系
• 基于统计
• 基于词法分析
• 基于行为
![Page 23: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性](https://reader034.fdocuments.net/reader034/viewer/2022052212/5f07eb117e708231d41f6955/html5/thumbnails/23.jpg)
句法分析
□ 短语句法分析
head-rule, lexicalize, grammar-based un-lexicalize
□ 依存句法分析
memory based,classifier-based,
feature-verification
![Page 24: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性](https://reader034.fdocuments.net/reader034/viewer/2022052212/5f07eb117e708231d41f6955/html5/thumbnails/24.jpg)
语义推荐
![Page 25: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性](https://reader034.fdocuments.net/reader034/viewer/2022052212/5f07eb117e708231d41f6955/html5/thumbnails/25.jpg)
内容提取问题
• 关键词、中心词
• 特定场景地址、礼物
![Page 26: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性](https://reader034.fdocuments.net/reader034/viewer/2022052212/5f07eb117e708231d41f6955/html5/thumbnails/26.jpg)
分类打标问题
![Page 27: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性](https://reader034.fdocuments.net/reader034/viewer/2022052212/5f07eb117e708231d41f6955/html5/thumbnails/27.jpg)
![Page 28: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性](https://reader034.fdocuments.net/reader034/viewer/2022052212/5f07eb117e708231d41f6955/html5/thumbnails/28.jpg)
![Page 29: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性](https://reader034.fdocuments.net/reader034/viewer/2022052212/5f07eb117e708231d41f6955/html5/thumbnails/29.jpg)
分类打标问题
![Page 30: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性](https://reader034.fdocuments.net/reader034/viewer/2022052212/5f07eb117e708231d41f6955/html5/thumbnails/30.jpg)
t2
t3 D1
D2
D10
D3
D9
D4
D7 D8
D5
D11
D6
Q
单词向量化问题
![Page 31: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性](https://reader034.fdocuments.net/reader034/viewer/2022052212/5f07eb117e708231d41f6955/html5/thumbnails/31.jpg)
机器分类问题
... C6 C7 C5 C4 C1 C3 Cn C2
d3 d1 dm
![Page 32: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性](https://reader034.fdocuments.net/reader034/viewer/2022052212/5f07eb117e708231d41f6955/html5/thumbnails/32.jpg)
词库建设
![Page 33: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性](https://reader034.fdocuments.net/reader034/viewer/2022052212/5f07eb117e708231d41f6955/html5/thumbnails/33.jpg)
小结
• 互联网环境下的语义
• 词库的构架和沉淀
• 基础相关算法
![Page 34: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性](https://reader034.fdocuments.net/reader034/viewer/2022052212/5f07eb117e708231d41f6955/html5/thumbnails/34.jpg)
文本技术相关介绍
![Page 35: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性](https://reader034.fdocuments.net/reader034/viewer/2022052212/5f07eb117e708231d41f6955/html5/thumbnails/35.jpg)
数据聚类、天然类目、类目团蔟
![Page 36: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性](https://reader034.fdocuments.net/reader034/viewer/2022052212/5f07eb117e708231d41f6955/html5/thumbnails/36.jpg)
谱系、层次聚类
![Page 37: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性](https://reader034.fdocuments.net/reader034/viewer/2022052212/5f07eb117e708231d41f6955/html5/thumbnails/37.jpg)
图片语义应用
![Page 38: 淘宝网语义分析产品、技术介绍 - IT168topic.it168.com/factory/adc2013/doc/wangtianzhou.pdf · 2、关键字筛选(搜索uv\商品数量\购买转化) 标签范围确定:买家自然属性](https://reader034.fdocuments.net/reader034/viewer/2022052212/5f07eb117e708231d41f6955/html5/thumbnails/38.jpg)
谢谢