네이버 시맨틱 영화 검색

Post on 29-Oct-2014

53 views 11 download

Tags:

description

얼마전에 오픈한 네이버랩 시맨틱 영화검색 서비스를 소개합니다. 시맨틱웹 기술을 영화 데이터베이스 검색에 적용하였습니다. 현재 한국형 포털에서는 검색의 만족도를 높이기 위해 많은 노력과 비용을 들여 양질의 컨텐츠 DB를 자체 구축하고 있습니다. 하지만 현재의 컨텐츠 DB에 대한 검색은 매우 제한적입니다. 대부분 한 단어 검색 또는 제한된 패턴의 검색만 가능합니다. 많은 비용을 들여 구축한 컨텐츠인 만큼 더 많이 검색 결과로 노출될 필요가 있고, 더 많이 활용될 필요가 있습니다. 시맨틱 영화검색은 이러한 목적을 가지고 영화 컨텐츠 DB에 대해 새로운 검색 방법과 검색 인터페이스를 실험한 결과입니다.

Transcript of 네이버 시맨틱 영화 검색

12009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주

NHN( 주 )

시맨틱웹과 네이버랩 시맨틱 영화검색

2009년 시맨틱 웹 컨퍼런스주관 : 웹사이언스 워크그룹

주최 : 웹사이언스 워크그룹 , 국립중앙도서관

2009.12.04강병주 NHN㈜

2

Contents

제 1 부 데이터베이스 검색

제 2 부 시맨틱웹과 데이터베이스 검색

제 3 부 네이버랩 시맨틱 영화검색

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

32009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

요약

이제 데이터베이스 검색이 아니라 데이터베이스 정보검색이다 .

시맨틱웹 ( 데이터 웹 ) 은 데이터베이스 정보검색 시대를 열 것이다 .

시맨틱 영화검색은 데이터베이스 정보검색을 가능성을 위한 실험이다 .

1.2.3.

4

데이터베이스 검색

제 1 부

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

5

데이터베이스 검색

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

6

검색 = 웹 검색

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

7

Web Search

비정형 텍스트 데이터 검색

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

82009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

웹 이전 웹 이후

데이터베이스 검색 텍스트 검색

9

웹 검색 시대에는…

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

데이터베이스 검색

텍스트 검색

10

Enterprise Search

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

11

한국 포털에서 데이터베이스 검색컨텐츠 검색

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

스마트 파인더

12

음악 DB

네이버 컨텐츠 DB

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

영화 DB 음악 DB

요리 DB자동차 DB

부동산 DB

인물 DB

책 DB맛집 DB

132009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

14

컨텐츠 검색의 한계

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

대부분 한 단어 질의에 대해서만 작동

15

스마트 파인더전형적인 양식 기반의 질의 인터페이스

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

162009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

17

스마트 파인더의 한계

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

한정된 패턴의 질의만 가능

18

데이터베이스 검색의 딜레마

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

19

데이터베이스에는 정보가 있지만 검색할 방법이 없어 !

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

21

문제는 검색 인터페이스

검색 인터페이스

검색 인터페이스가 병목점이다 .

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

22

Unstructured datafor human

Structured datafor machine

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

232009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

Structured data is boring and useless.

242009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

Unstructured data

is sexy.

25

데이터베이스 질의 인터페이스

사용성이 높아야 한다

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

질의 표현력이 높아야 한다

범용성이 높아야 한다

1.2.3.

26

사용성 , 표현력 , 범용성

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

사용성

표현력 범용성

27

데이터베이스 질의 인터페이스의 3 가지 유형

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

Form-based Interface

Natural Language Inter-face

Visual Interface

스마트 파인더

시맨틱 영화검색 ( 오브젝트 검색)

시맨틱 영화검색 ( GQI )

28

낮은 사용성과 낮은 범용성

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

Form-based Interface

Natural Language Inter-face

Visual Interface

높다

낮다

낮다

사용성

낮다

높다

높다

표현력

낮다

낮다

낮다

범용성

29

시맨틱웹 기술로 범용성을 높인다 .

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

Form-based Interface

Natural Language Inter-face

Visual Interface

높다

낮다

낮다

사용성

낮다

높다

높다

표현력

낮다

높다

높다

범용성

어려운 문제 RDF 기술

302009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

데이터베이스 검색 결과

기존 통검검색 결과

31

제 2 부

시맨틱 웹과 데이터베이스 검색

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

32

Semantic Web 비전

I have a dream for the Web [in which computers] be-come capable of analyzing all the data on the Web – the content, links, and transactions between people

and computers. A ‘Semantic Web’, which should make this possible, has yet to emerge, but when it does, the day-to-day mechanisms of trade, bureaucracy and our daily lives will be handled by machines talking to ma-chines. The ‘intelligent agents’ people have touted for

ages will finally materialize.

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

- Tim Berners-Lee, 1999

33

시맨틱 웹

웹에 있는 정보를자동으로 처리하기 위한 웹

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

34

시맨틱 웹

We need structured data on the Web.

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

35

왜 데이터베이스 검색인가 ?

웹에 구조화된 데이터 ,공개 데이터베이스가 증가하고 있다 .

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

36

Open Data

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

Open Source

Open API

Open Data

37

Activities Promoting Open Data

Linking Open Data Open Data in Science Freebase Science Commons Free Our Data The Open Knowledge Foundation Blue Obelisk Research Data Canada

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

38

Linked Data Cloud

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

39

데이터의 구조화

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

RDFa: The Se-mantic Web’s missing link

[Mark Birbeck, SemTech 2009]

40

구조화된 데이터는 매우 많다

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

[Scott Brinker, 2009]

41

정보 검색 VS. 데이터베이스 검색

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

정보 검색

데이터베이스 검색

Matching 방식

Partial Matching

Exact Matching

42

데이터베이스 정보검색

데이터베이스 데이터에 대한 정보검색

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

43

정보검색의 대중화 조건

데이터가 매우 매우 많아야 한다 .

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

검색이 아주 쉬워야 한다 .

44

데이터베이스 검색은 어렵다 .

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

45

근본적인 문제

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

기계는 자연어를 이해하지 못한다 !

데이터베이스

46

내부 데이터베이스 검색

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

사용자는 데이터베이스구조를 알 필요 없이자연어로 검색 가능

데이터베이스

번역

47

시맨틱 웹 기술의 역할

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

영화 DB 1

영화 DB 2

영화 DB 3

번역 1

번역 2

번역 3

Open

Open

Open

48

데이터베이스 정보검색

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

영화 DB 1

영화 DB 2

영화 DB 3“ 일본 애니메이션 영화”

49

World Wide Web

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

Decentralized Control

50

Ontology Problem

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

51

과거에는 왜 ?

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

52

Web

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

53

정보 검색

정보검색 시대의 도래

텍스트 검색 + 웹 웹 검색

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

데이터베이스 검색 + 웹 데이터 웹 검색

54

제 3 부

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

시맨틱 영화검색

55

기조

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

시맨틱 영화검색은 오브젝트 검색

영화

인물

영화제

국가

학교

회사

562009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

문서 검색 VS. 오브젝트 검색

572009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

질의도 오브젝트 단위로 하고검색 결과도 오브젝트 단위로

58

시맨틱 영화검색의 특징

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

정답을 요구하는 질의에 대해 정답을 찾아준다

두 개의 오브젝트 사이에 의미 있는 관계를 찾아준다 .

집합으로 집합을 찾는 검색

“ 한국 여자 감독 영화”

“ 박찬욱 감독 영화” , “ 올드보이 주연 배우”

“ 봉준호 송강호” , “ 김혜수 김동현”

집합 기반 검색

관계 검색

정답 검색

2

3

4

5

길고 복잡한 질의가 가능하다 .

“ 스파이더맨 출연 한국 배우 ”길고 복잡한 질의

1의미가 결정된 오브젝트 단위로 검색

자연어 모호성 최소화오브젝트 검색

59

특정 오브젝트에 대해 관련 속성 정보들이 정리되어 나옴

“ 해운대”컨텐츠 검색

시맨틱 영화검색의 특징

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

자연어 형식으로 질의 가능

“ 부산 출신 감독”자연어 검색

정의된 모든 속성의 조합으로 검색

실재 DB 에 존재하지 않는 정보를 추론 규칙으로 추론

새로운 발견

“ 봉준호 영화” , “ 타짜 배역”

“2007 일본 액션 영화”

“ 피터 폰다 가족”추론 검색

속성 검색

다양한 의미 해석6

7

8

9

10

60

시맨틱 자동 완성

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

61

시맨틱 자동 완성 (2)

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

1 차 자동 완성

2 차 자동 완성

62

시맨틱 검색어 추천

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

확장 검색어 추천 : 온톨로지를 이용한 기계적인 키워드 확장

연관 검색어 추천 : 키워드와 관련 높은 영화인 - 영화인 , 영화 - 영화인 , 영화 - 영화 추천

63

GQI

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

64

결론

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

이제 데이터베이스 검색이 아니라 데이터베이스 정보검색이다 .

시맨틱웹 ( 데이터 웹 ) 은 데이터베이스 정보검색 시대를 열 것이다 .

시맨틱 영화검색은 데이터베이스 정보검색을 가능성을 위한 실험이다 .

1.2.3.

65

Profile

2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )

강병주Byung-Ju KANG

소속 : NHN( 주 )

주요관심분야 : 시맨틱웹 , 집단지성 , 정보검색 , 자연어처리

개인블로그 : 시맨틱웹과 집단지성 http://blog.naver.com/semanian

이메일 : bjkang@nhn.com