Bamboo

12
Bamboo 中中中中中中 Jianing Yang <detrox (at) gmail.com>

description

 

Transcript of Bamboo

Page 1: Bamboo

Bamboo中文分词乱谈

Jianing Yang <detrox (at) gmail.com>

Page 2: Bamboo

目录    

• 概述• 中文分词发展及现有方法• Bamboo项目• Q & A

Page 3: Bamboo

概述

• What?通过程序对汉语以词为单位进行自动切分 • Why?搜索(索引,推荐, ...),分析(命名实体, ...)• How?

Page 4: Bamboo

发展• 切分阶段 

o 仅基于字典 (Trie)基于字典的最大正向 /逆向匹配 (北航 梁南元 ) MMSeg( 平均长度,方差,自由度)

o 基于统计( Markov假设, Andrey Markov 1856-1922)  Markov 一元语法模型 (清华 郭进 ) Markov  n-元语法模型平滑 /Interpolation

• 构词阶段  - 以字构词 (SIGHAN Xue, 2002)o 最大熵 (Max Entropy)o 条件随机场 (Conditional Random Field)

Page 5: Bamboo

参考文献• 分词 

o 书面汉语自动分词系统  - 梁南元o 基于 N-最短路径方法的中文词语粗分模型  - 张华平,刘 群 o A Tutorial on Hidden Markov Models - Rekesh Dugado A Maximum Entropy Approach to Natural Language Processing - Adam L.

Bergero The Improved Iterative Scaling Algorithm: A Gentle Introduction - Adam

Berger• 字典 

o An Efficient Digital Search Algorithm by Using a Double-Array Structure, JUN-ICHI AOE

o A Trie Compaction Algorithm for a Large Set of Keyso Trie Structures 理论与实践  - 罗翼

• 基础算法 o Introduction to Algorithms -  Thomas H. Cormen, Charles E. Leiserson,

Ronald L. Rivest and Clifford Stein

Page 6: Bamboo

Bamboo项目

• 历史  tcws - mws(fake n-gram) - cnlexizer - bamboo• developers - bingzhen, jianingy, wanfeng• contributors - many volunteers

Page 7: Bamboo

Bamboo 优势• 基于 CRF精确分词

o 未知领域分词测试 BBS 96.7% 菜谱  93.1%

o 已知领域分词测试人民日报 : 96.8%

o 速度 : 166 kb/s • 基于 Unigram快速分词

o 人民日报分词测试:  93.7% o MSRA分词测试: 89.1%o 速度: 832 kb/s

Page 8: Bamboo

Bamboo 优势 (Cont.)

• 人工干预修正o 切分o 合并

• 分词试验环境 o 链式结构o C++ OO设计o Trie词典支持

• 命名实体识别o 简单发现o 关系发现

Page 9: Bamboo

Bamboo的分词过程

 

Page 10: Bamboo

Various Interfaces of Bamboo

• Already Supported o C++ Object Oriented Interfaceo C  o PostgreSQL Procedureo PostgreSQL TSearch Parsero PHP Extensiono Perl Extension

• TBAo Python Extension

Page 11: Bamboo

Q & A

Page 12: Bamboo

Thanks