Sansarn ( สรรสาร ) Smart-Q ( สมาร์ท - คิว )

20
1 Sansarn (สสส สสส) Smart-Q (สสส สสส-สสส) สสสสส สสสสสสสสสสสสสสส สสสสสสสสสสสสสสสสสสสสสสสสสสสสสสสสส สสสสสสสส สสสสสสสสสสสสสสสสสสสสสสสสสสสสสสส สสสสสสสสสสสสสสสสสสส 31 สสสสสส 2544 “สสสสสสสสสสสสสสส สสส NECTEC สสสส 21 สสสสสสสสส

description

Sansarn ( สรรสาร ) Smart-Q ( สมาร์ท - คิว ). วิรัช ศรเลิศล้ำวาณิช ผู้อำนวยการฝ่ายวิจัยและพัฒนาสาขาสารสนเทศ ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ. 31 ตุลาคม 2544 “ แถลงข่าวเปิดตัวที่ NECTEC ชั้น 21 ตึกมหานครยิปซั่ม ”. ความยากในการสืบค้นกรณีภาษาไทย. ครัว. - PowerPoint PPT Presentation

Transcript of Sansarn ( สรรสาร ) Smart-Q ( สมาร์ท - คิว )

Page 1: Sansarn ( สรรสาร ) Smart-Q ( สมาร์ท - คิว )

1

Sansarn (สรรสาร)Smart-Q (สมาร�ท-คิว)

วร�ช ศรเลิศลิ��าวาณิชผู้��อำ�านวยการฝ่�ายวจั�ยแลิะพั�ฒนาสาขาสารสนเทศ

ศ�นย�เทคิโนโลิย$อำเลิ%กทรอำนกส�แลิะคิอำมพัวเตอำร�แห่(งชาต

31 ต*ลิาคิม 2544 “แถลิงข(าวเปิ-ดต�วท$/ NECTEC ช��น 21 ต0กมห่านคิรยปิซั่�/ม”

Page 2: Sansarn ( สรรสาร ) Smart-Q ( สมาร์ท - คิว )

2

คิร�ว...การสมรสห่ม�(โดยสห่พั�นธ์�คิรอำบคิร�วเพั4/อำคิวามสาม�คิคิ$......เปิลิ$/ยนเปิ5นห่�อำงน��า...ห่�อำงคิร�ว...ห่�อำงร�บแขก...

ปิระชา...กอำงปิระชาส�มพั�นธ์�การส4/อำสารแห่(งปิระเทศไทย...

...นายแพัทย�ปิระชา เปิ5นปิระธ์านคิณิะกรรมการ...

ธ์าต*...ปิระว�ตว�ดมห่าธ์าต*วรวห่าร...

...โปิรแกรมช(วยสอำนเคิม$เบ4�อำงต�น แลิะตารางธ์าต*...

คิวามยากในการส4บคิ�นกรณิ$ภาษาไทย

Page 3: Sansarn ( สรรสาร ) Smart-Q ( สมาร์ท - คิว )

3

“Inverted index is generated to index words in files.”

คิ�า

ต�าแห่น(ง

invertis

generate

index

word

to

in

file

1

10

32

1

6

1

9

2

93

8

4

4

4

7

Inverted Index

Page 4: Sansarn ( สรรสาร ) Smart-Q ( สมาร์ท - คิว )

4

Search Engine ส�าห่ร�บภาษาอำ�งกฤษ

Google

Fast search

Yahoo!AltaVistaHotBotExcite

Lycos

..

.

Page 5: Sansarn ( สรรสาร ) Smart-Q ( สมาร์ท - คิว )

5

การสร�าง Index ส�าห่ร�บภาษาอำ�งกฤษ

สร�าง Inverted Index File โดยอำาศ�ยโปิรแกรม Database

Stemming/ Normalization

- Windows: WINDOWS, Windows

- work: work, working, works,worked- go: go, going, goes, went,

gone

Scoring ส�าห่ร�บการจั�ดลิ�าด�บบทคิวามคิวามส�าคิ�ญขอำงคิ�าในบทคิวาม เช(น คิ�าท$/ปิรากฏใน Title, คิ�าส�าคิ�ญ (key word) , คิวามถ$/ขอำงคิ�าในไฟลิ� เปิ5นต�น

คิวามนยมขอำงบทคิวาม เช(น จั�านวน click ท$/เข�าแวะชม ,จั�านวน link จัาก คิ�าท$/ใช�ส4บคิ�น เปิ5นต�น

Page 6: Sansarn ( สรรสาร ) Smart-Q ( สมาร์ท - คิว )

6

Search Engine ส�าห่ร�บภาษาท$/ไม(เว�นวรรคิระห่ว(างคิ�า (ญ$/ปิ*�น, จั$น, เกาห่ลิ$,

ไทย, ...)

Namazu

Yahoo Japan

ใช�ต�วต�ดคิ�าขอำง SuperMorpho-J

คิวามเร%ว 300

MB/hr.ถ�กต�อำง 98%

goo

msn

Page 7: Sansarn ( สรรสาร ) Smart-Q ( สมาร์ท - คิว )

7

การสร�าง Index ส�าห่ร�บภาษาท$/ไม(เว�นวรรคิระห่ว(างคิ�า

WordSegmentation

สร�าง Inverted Index File โดยอำาศ�ยโปิรแกรม Database

Stemming/ Normalization

- Windows: WINDOWS, Windows

- work: work, working, works,worked- go: go, going, goes, went,

gone

Scoring ส�าห่ร�บการจั�ดลิ�าด�บบทคิวามคิวามส�าคิ�ญขอำงคิ�าในบทคิวาม เช(น คิ�าท$/ปิรากฏใน Title, คิ�าส�าคิ�ญ (key word) , คิวามถ$/ขอำงคิ�าในไฟลิ� เปิ5นต�น

คิวามนยมขอำงบทคิวาม เช(น จั�านวน click ท$/เข�าแวะชม ,จั�านวน link จัาก คิ�าท$/ใช�ส4บคิ�น เปิ5นต�น

Page 8: Sansarn ( สรรสาร ) Smart-Q ( สมาร์ท - คิว )

9

การสร�าง Inverted Index ส�าห่ร�บภาษาไทย

(แบบเก(า)

ปิระว�ต 1

มห่าธ์าต*วรวห่าร 11

แลิะ 25

ว�ด 8 28,อำารามห่ลิวง 31

ต�าแห่น(ง

| ปิระว�ต | ว�ด | มห่าธ์าต*วรวห่าร | แลิะ | ว�ด | อำารามห่ลิวง |

Page 9: Sansarn ( สรรสาร ) Smart-Q ( สมาร์ท - คิว )

10

Partial matching method

Word segmentation + Concatenation (AND)

มห่าธ์าต* AND วรวห่าร• ต�ดคิ�าให่�ย(อำยท$/ส*ด• เพั/ม Index โดยอำาศ�ยวธ์$การ SIString (Semi-infinite string)

| ปิระว�ต | ว�ด | มห่าธ์าต*วรวห่าร | แลิะ | ว�ด | อำารามห่ลิวง |

1

| ปิระว�ต | ว�ด | มห่าธ์าต* | วรวห่าร | แลิะ | ว�ด | อำาราม | ห่ลิวง |

2

มห่าธ์าต* ห่าไม(เจัอำ ?1

มห่าธ์าต*วรวห่าร ห่าไม(เจัอำ ?2

Precision

สถตคิลิาดเคิลิ4/อำน จั�ดลิ�าด�บไม(ได�Recall คิวามคิรอำบคิลิ*ม ห่าไม(พับSpeed กรณิ$ส4บคิ�นวลิ$,

ปิระโยคิช�า

การส4บคิ�น (แบบเก(า)

Page 10: Sansarn ( สรรสาร ) Smart-Q ( สมาร์ท - คิว )

11

คิ(าคิวามน(าจัะเปิ5นขอำงคิ�า

“คิร�ว”

คิรอำบในท$/ห่�อำงท�า...

คิร�ว

คิ + รอำบ “คิรอำบ”

คิวามห่ลิากห่ลิายขอำงคิ�าท$/อำย�(ข�าง

เคิ$ยง

คิวามบ(อำยขอำงการอำย�(เคิ$ยงข�างก�นขอำงอำ�กขระ

Rank * เปิร$ยบเท$ยบคิวามน(าจัะเปิ5นขอำงอำ�นด�บคิ�า* Weight ตามคิ(าคิวามส�าคิ�ญขอำงคิ�า (key word, title, ...) แลิะ คิวามถ$/ (term frequency)

คิรอำบ + คิร�ว

“คิรอำบคิร�ว”

Page 11: Sansarn ( สรรสาร ) Smart-Q ( สมาร์ท - คิว )

12

สะดวก / รวดเร%ว / แม(นย�า

Full Text Search

Field Search

Soundex Search

คิ�นห่าท�/วไปิเห่มาะส�าห่ร�บท��งท$/เปิ5น คิ�า, วลิ$, ปิระโยคิ

คิ�นห่าคิ�าท$/ม$เส$ยงคิลิ�าย เช(นปิระเสด => ปิระเสรฐ , บรรได => บ�นได

คิ�นห่าตามห่�วข�อำ เช(น ช4/อำผู้��แต(ง , ช4/อำโคิรงการ เปิ5นต�น

การส4บคิ�น

ท��งห่มดสน�บสน*นการส4บคิ�นท$/ม$เง4/อำนไข AND, OR, NOT ในกรณิ$ท$/ระบ*คิ�าคิ�นมากกว(าห่น0/งคิ�า

Page 12: Sansarn ( สรรสาร ) Smart-Q ( สมาร์ท - คิว )

13

Page 13: Sansarn ( สรรสาร ) Smart-Q ( สมาร์ท - คิว )

14

Page 14: Sansarn ( สรรสาร ) Smart-Q ( สมาร์ท - คิว )

15

Page 15: Sansarn ( สรรสาร ) Smart-Q ( สมาร์ท - คิว )

16

Page 16: Sansarn ( สรรสาร ) Smart-Q ( สมาร์ท - คิว )

19

Smart-Q

Page 17: Sansarn ( สรรสาร ) Smart-Q ( สมาร์ท - คิว )

20

การปิ?อำนอำ�กขระไทยบนโทรศ�พัท�ม4อำถ4อำ

• พัย�ญชนะ 46 ต�วอำ�กษร• สระ, วรรณิย*กต� แลิะส�ญลิ�กษณิ� 28 ต�วอำ�กษร• 6-7 ต�วอำ�กษร/คิ$ย�

1ก-ง

2จั-ฎ

3ฏ-ต

4ถ-ผู้

5ฝ่-ร

6ฤ-ส

7ห่-ฮ

8สระ

9วรรณิย*กต�

* 0 #

“ท” อำย�(ปิ*�มไห่น?

Page 18: Sansarn ( สรรสาร ) Smart-Q ( สมาร์ท - คิว )

21

แปิ?นพัมพั�ส�าห่ร�บ Smart-Q

• มาตรฐานท$/ม$ใช�อำย�(ท� /วไปิ

1สระวรรณิย*กต�

2abc

3def

4ghi

5jkl

6mno

7pqrs

8tuv

9wxyz

* 0ย4นย�น

#โห่มด

Page 19: Sansarn ( สรรสาร ) Smart-Q ( สมาร์ท - คิว )

22

Smart-Q

สว�สด$ sawaddi

7292334

sawaddee

72923333

คิ4อำ ku

58

kue

583

kuu

588

khu

548

อำงคิ�การ ongkarn

6645276

ongkan

664526

คิรอำง krong

57664

klong

55664

kong

5664

Page 20: Sansarn ( สรรสาร ) Smart-Q ( สมาร์ท - คิว )

23

Smart-Q