Post on 29-Oct-2014
description
12009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주
NHN( 주 )
시맨틱웹과 네이버랩 시맨틱 영화검색
2009년 시맨틱 웹 컨퍼런스주관 : 웹사이언스 워크그룹
주최 : 웹사이언스 워크그룹 , 국립중앙도서관
2009.12.04강병주 NHN㈜
2
Contents
제 1 부 데이터베이스 검색
제 2 부 시맨틱웹과 데이터베이스 검색
제 3 부 네이버랩 시맨틱 영화검색
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
32009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
요약
이제 데이터베이스 검색이 아니라 데이터베이스 정보검색이다 .
시맨틱웹 ( 데이터 웹 ) 은 데이터베이스 정보검색 시대를 열 것이다 .
시맨틱 영화검색은 데이터베이스 정보검색을 가능성을 위한 실험이다 .
1.2.3.
4
데이터베이스 검색
제 1 부
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
5
데이터베이스 검색
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
6
검색 = 웹 검색
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
7
Web Search
비정형 텍스트 데이터 검색
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
82009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
웹 이전 웹 이후
데이터베이스 검색 텍스트 검색
9
웹 검색 시대에는…
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
데이터베이스 검색
텍스트 검색
10
Enterprise Search
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
11
한국 포털에서 데이터베이스 검색컨텐츠 검색
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
스마트 파인더
12
음악 DB
네이버 컨텐츠 DB
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
영화 DB 음악 DB
요리 DB자동차 DB
부동산 DB
인물 DB
책 DB맛집 DB
132009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
14
컨텐츠 검색의 한계
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
대부분 한 단어 질의에 대해서만 작동
15
스마트 파인더전형적인 양식 기반의 질의 인터페이스
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
162009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
17
스마트 파인더의 한계
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
한정된 패턴의 질의만 가능
18
데이터베이스 검색의 딜레마
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
19
데이터베이스에는 정보가 있지만 검색할 방법이 없어 !
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
202009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
대만 여자 배우
중국 여자 배우
청룡영화제 여우주연상
가수 출신 한국 배우
21
문제는 검색 인터페이스
검색 인터페이스
검색 인터페이스가 병목점이다 .
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
22
Unstructured datafor human
Structured datafor machine
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
232009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
Structured data is boring and useless.
242009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
Unstructured data
is sexy.
25
데이터베이스 질의 인터페이스
사용성이 높아야 한다
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
질의 표현력이 높아야 한다
범용성이 높아야 한다
1.2.3.
26
사용성 , 표현력 , 범용성
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
사용성
표현력 범용성
27
데이터베이스 질의 인터페이스의 3 가지 유형
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
Form-based Interface
Natural Language Inter-face
Visual Interface
스마트 파인더
시맨틱 영화검색 ( 오브젝트 검색)
시맨틱 영화검색 ( GQI )
28
낮은 사용성과 낮은 범용성
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
Form-based Interface
Natural Language Inter-face
Visual Interface
높다
낮다
낮다
사용성
낮다
높다
높다
표현력
낮다
낮다
낮다
범용성
29
시맨틱웹 기술로 범용성을 높인다 .
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
Form-based Interface
Natural Language Inter-face
Visual Interface
높다
낮다
낮다
사용성
낮다
높다
높다
표현력
낮다
높다
높다
범용성
어려운 문제 RDF 기술
302009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
데이터베이스 검색 결과
기존 통검검색 결과
31
제 2 부
시맨틱 웹과 데이터베이스 검색
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
32
Semantic Web 비전
I have a dream for the Web [in which computers] be-come capable of analyzing all the data on the Web – the content, links, and transactions between people
and computers. A ‘Semantic Web’, which should make this possible, has yet to emerge, but when it does, the day-to-day mechanisms of trade, bureaucracy and our daily lives will be handled by machines talking to ma-chines. The ‘intelligent agents’ people have touted for
ages will finally materialize.
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
- Tim Berners-Lee, 1999
33
시맨틱 웹
웹에 있는 정보를자동으로 처리하기 위한 웹
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
34
시맨틱 웹
We need structured data on the Web.
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
35
왜 데이터베이스 검색인가 ?
웹에 구조화된 데이터 ,공개 데이터베이스가 증가하고 있다 .
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
36
Open Data
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
Open Source
Open API
Open Data
37
Activities Promoting Open Data
Linking Open Data Open Data in Science Freebase Science Commons Free Our Data The Open Knowledge Foundation Blue Obelisk Research Data Canada
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
38
Linked Data Cloud
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
39
데이터의 구조화
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
RDFa: The Se-mantic Web’s missing link
[Mark Birbeck, SemTech 2009]
40
구조화된 데이터는 매우 많다
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
[Scott Brinker, 2009]
41
정보 검색 VS. 데이터베이스 검색
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
정보 검색
데이터베이스 검색
Matching 방식
Partial Matching
Exact Matching
42
데이터베이스 정보검색
데이터베이스 데이터에 대한 정보검색
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
43
정보검색의 대중화 조건
데이터가 매우 매우 많아야 한다 .
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
검색이 아주 쉬워야 한다 .
44
데이터베이스 검색은 어렵다 .
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
45
근본적인 문제
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
기계는 자연어를 이해하지 못한다 !
데이터베이스
46
내부 데이터베이스 검색
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
사용자는 데이터베이스구조를 알 필요 없이자연어로 검색 가능
데이터베이스
번역
47
시맨틱 웹 기술의 역할
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
영화 DB 1
영화 DB 2
영화 DB 3
번역 1
번역 2
번역 3
Open
Open
Open
48
데이터베이스 정보검색
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
영화 DB 1
영화 DB 2
영화 DB 3“ 일본 애니메이션 영화”
49
World Wide Web
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
Decentralized Control
50
Ontology Problem
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
51
과거에는 왜 ?
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
52
Web
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
53
정보 검색
정보검색 시대의 도래
텍스트 검색 + 웹 웹 검색
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
데이터베이스 검색 + 웹 데이터 웹 검색
54
제 3 부
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
시맨틱 영화검색
55
기조
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
시맨틱 영화검색은 오브젝트 검색
영화
인물
영화제
국가
학교
회사
562009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
문서 검색 VS. 오브젝트 검색
572009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
질의도 오브젝트 단위로 하고검색 결과도 오브젝트 단위로
58
시맨틱 영화검색의 특징
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
정답을 요구하는 질의에 대해 정답을 찾아준다
두 개의 오브젝트 사이에 의미 있는 관계를 찾아준다 .
집합으로 집합을 찾는 검색
“ 한국 여자 감독 영화”
“ 박찬욱 감독 영화” , “ 올드보이 주연 배우”
“ 봉준호 송강호” , “ 김혜수 김동현”
집합 기반 검색
관계 검색
정답 검색
2
3
4
5
길고 복잡한 질의가 가능하다 .
“ 스파이더맨 출연 한국 배우 ”길고 복잡한 질의
1의미가 결정된 오브젝트 단위로 검색
자연어 모호성 최소화오브젝트 검색
59
특정 오브젝트에 대해 관련 속성 정보들이 정리되어 나옴
“ 해운대”컨텐츠 검색
시맨틱 영화검색의 특징
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
자연어 형식으로 질의 가능
“ 부산 출신 감독”자연어 검색
정의된 모든 속성의 조합으로 검색
실재 DB 에 존재하지 않는 정보를 추론 규칙으로 추론
새로운 발견
“ 봉준호 영화” , “ 타짜 배역”
“2007 일본 액션 영화”
“ 피터 폰다 가족”추론 검색
속성 검색
다양한 의미 해석6
7
8
9
10
60
시맨틱 자동 완성
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
61
시맨틱 자동 완성 (2)
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
1 차 자동 완성
2 차 자동 완성
62
시맨틱 검색어 추천
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
확장 검색어 추천 : 온톨로지를 이용한 기계적인 키워드 확장
연관 검색어 추천 : 키워드와 관련 높은 영화인 - 영화인 , 영화 - 영화인 , 영화 - 영화 추천
63
GQI
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
64
결론
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
이제 데이터베이스 검색이 아니라 데이터베이스 정보검색이다 .
시맨틱웹 ( 데이터 웹 ) 은 데이터베이스 정보검색 시대를 열 것이다 .
시맨틱 영화검색은 데이터베이스 정보검색을 가능성을 위한 실험이다 .
1.2.3.
65
Profile
2009 년 시맨틱웹 컨퍼런스 - – 네이버랩 시맨틱 영화검색 강병주NHN( 주 )
강병주Byung-Ju KANG
소속 : NHN( 주 )
주요관심분야 : 시맨틱웹 , 집단지성 , 정보검색 , 자연어처리
개인블로그 : 시맨틱웹과 집단지성 http://blog.naver.com/semanian
이메일 : bjkang@nhn.com