Bamboo
description
Transcript of Bamboo
Bamboo中文分词乱谈
Jianing Yang <detrox (at) gmail.com>
目录
• 概述• 中文分词发展及现有方法• Bamboo项目• Q & A
概述
• What?通过程序对汉语以词为单位进行自动切分 • Why?搜索(索引,推荐, ...),分析(命名实体, ...)• How?
发展• 切分阶段
o 仅基于字典 (Trie)基于字典的最大正向 /逆向匹配 (北航 梁南元 ) MMSeg( 平均长度,方差,自由度)
o 基于统计( Markov假设, Andrey Markov 1856-1922) Markov 一元语法模型 (清华 郭进 ) Markov n-元语法模型平滑 /Interpolation
• 构词阶段 - 以字构词 (SIGHAN Xue, 2002)o 最大熵 (Max Entropy)o 条件随机场 (Conditional Random Field)
参考文献• 分词
o 书面汉语自动分词系统 - 梁南元o 基于 N-最短路径方法的中文词语粗分模型 - 张华平,刘 群 o A Tutorial on Hidden Markov Models - Rekesh Dugado A Maximum Entropy Approach to Natural Language Processing - Adam L.
Bergero The Improved Iterative Scaling Algorithm: A Gentle Introduction - Adam
Berger• 字典
o An Efficient Digital Search Algorithm by Using a Double-Array Structure, JUN-ICHI AOE
o A Trie Compaction Algorithm for a Large Set of Keyso Trie Structures 理论与实践 - 罗翼
• 基础算法 o Introduction to Algorithms - Thomas H. Cormen, Charles E. Leiserson,
Ronald L. Rivest and Clifford Stein
Bamboo项目
• 历史 tcws - mws(fake n-gram) - cnlexizer - bamboo• developers - bingzhen, jianingy, wanfeng• contributors - many volunteers
Bamboo 优势• 基于 CRF精确分词
o 未知领域分词测试 BBS 96.7% 菜谱 93.1%
o 已知领域分词测试人民日报 : 96.8%
o 速度 : 166 kb/s • 基于 Unigram快速分词
o 人民日报分词测试: 93.7% o MSRA分词测试: 89.1%o 速度: 832 kb/s
Bamboo 优势 (Cont.)
• 人工干预修正o 切分o 合并
• 分词试验环境 o 链式结构o C++ OO设计o Trie词典支持
• 命名实体识别o 简单发现o 关系发现
Bamboo的分词过程
Various Interfaces of Bamboo
• Already Supported o C++ Object Oriented Interfaceo C o PostgreSQL Procedureo PostgreSQL TSearch Parsero PHP Extensiono Perl Extension
• TBAo Python Extension
Q & A
Thanks