집합 기반 POI 검색을 이용한 문장 유사도 측정 기법집합 기반 POI 검색...

6
ISSN 2383-6318(Print) / ISSN 2383-6326(Online) KIISE Transactions on Computing Practices, Vol. 20, No. 12, pp. 711-716, 2014. 12 http://dx.doi.org/10.5626/KTCP.2014.20.12.711 집합 기반 POI 검색을 이용한 문장 유사도 측정 기법 (Sentence Similarity Measurement Method Using a Set-based POI Data Search) 고은별 이종우 †† (EunByul Ko) (JongWoo Lee) 최근 논문 표절 논란과 지능형 텍스트 검색서비스에 대한 관심이 증가하면서 문장 유사도 측 정의 필요성이 증가하고 있다. n-gram, 편집거리, LSA 등 기존의 다양한 방향으로 선행 연구가 있었지만 각 기법마다 장단점이 존재한다. 본 논문에서는 집합 기반 POI 검색 기법을 이용한 새로운 방향의 문장 유사도 측정 기법을 제안한다. 집합 기반 POI 검색 기법은 하드매칭에 비해 단어의 도치, 누락, 삽입, 경에 현저한 성능 향상을 보인다. 이 기법을 이용하면 보다 정확하고 빠른 문장 유사도 측정이 가능하다. 제안하는 기법은 기존 집합 기반 POI 검색 기법의 데이터 로딩 알고리즘과 텍스트 검색 알고리즘을 변형 하고 어절 연산 알고리즘을 추가하여 두 문장의 유사도를 백분율로 표현한다. 실험을 통해 본 논문에서 제시하는 기법이 정확도와 속도에서 n-gram과 기존 집합 기반 POI 검색 기법에 비해 우수함을 확인하였다. 키워드: POI 검색, 집합-기반 검색 알고리즘, 문장 유사도, 표절 검사, 텍스트 검색 Abstract With the gradual increase of interest in plagiarism and intelligent file content search, the demand for similarity measuring between two sentences is increasing. There is a lot of researches for sentence similarity measurement methods in various directions such as n-gram, edit-distance and LSA. However, these methods have their own advantages and disadvantages. In this paper, we propose a new sentence similarity measurement method approaching from another direction. The proposed method uses the set-based POI data search that improves search performance compared to the existing hard matching method when data includes the inverse, omission, insertion and revision of characters. Using this method, we are able to measure the similarity between two sentences more accurately and more quickly. We modified the data loading and text search algorithm of the set-based POI data search. We also added a word operation algorithm and a similarity measure between two sentences expressed as a percentage. From the experimental results, we observe that our sentence similarity measurement method shows better performance than n-gram and the set-based POI data search. Keywords: POI search, Set-based algorithm, sentence similarity, piracy test, text search 이 논문은 2013년도 정부(교육부)의 재원으로 한국연구재단의 기초연구사업 지원을 받아 수행된 것임(2013R1A1A2013155) 논문접수 : 2014930(Received 7 May 2014) 심사완료 : 20141023†† 학생회원 종신회원 : : 숙명여자대학교 멀티미디어과학과 [email protected] 숙명여자대학교 멀티미디어과학과 교수 (Sookmyung Womens Univ.) [email protected] (Corresponding author) (Accepted 20 June 2014) Copyright2014 한국정보과학회ː개인 목적이나 교육 목적인 경우, 이 저작물 의 전체 또는 일부에 대한 복사본 혹은 디지털 사본의 제작을 허가합니다. 이 때, 사본은 상업적 수단으로 사용할 수 없으며 첫 페이지에 본 문구와 출처를 반드시 명시해야 합니다. 이 외의 목적으로 복제, 배포, 출판, 전송 등 모든 유형의 사용행위 를 하는 경우에 대하여는 사전에 허가를 얻고 비용을 지불해야 합니다. 정보과학회 컴퓨팅의 실제 논문지 제20권 제12(2014. 12)

Transcript of 집합 기반 POI 검색을 이용한 문장 유사도 측정 기법집합 기반 POI 검색...

Page 1: 집합 기반 POI 검색을 이용한 문장 유사도 측정 기법집합 기반 POI 검색 기법은 데이터 로딩 알고리즘, 글 자 아이디 생성 알고리즘, 역 인덱스

ISSN 2383-6318(Print) / ISSN 2383-6326(Online)

KIISE Transactions on Computing Practices, Vol. 20, No. 12, pp. 711-716, 2014. 12

http://dx.doi.org/10.5626/KTCP.2014.20.12.711

집합 기반 POI 검색을 이용한 문장 유사도 측정 기법

(Sentence Similarity Measurement Method Using

a Set-based POI Data Search)

고 은 별† 이 종 우

††

(EunByul Ko)    (JongWoo Lee)

요 약 최근 논문 표 논란과 지능형 텍스트 검색서비스에 한 심이 증가하면서 문장 유사도 측

정의 필요성이 증가하고 있다. n-gram, 편집거리, LSA 등 기존의 다양한 방향으로 선행 연구가 있었지만

각 기법마다 장단 이 존재한다. 본 논문에서는 집합 기반 POI 검색 기법을 이용한 새로운 방향의 문장

유사도 측정 기법을 제안한다. 집합 기반 POI 검색 기법은 하드매칭에 비해 단어의 도치, 락, 삽입, 변

경에 한 성능 향상을 보인다. 이 기법을 이용하면 보다 정확하고 빠른 문장 유사도 측정이 가능하다.

제안하는 기법은 기존 집합 기반 POI 검색 기법의 데이터 로딩 알고리즘과 텍스트 검색 알고리즘을 변형

하고 어 연산 알고리즘을 추가하여 두 문장의 유사도를 백분율로 표 한다. 실험을 통해 본 논문에서

제시하는 기법이 정확도와 속도에서 n-gram과 기존 집합 기반 POI 검색 기법에 비해 우수함을 확인하 다.

키워드: POI 검색, 집합-기반 검색 알고리즘, 문장 유사도, 표 검사, 텍스트 검색

Abstract With the gradual increase of interest in plagiarism and intelligent file content search, the

demand for similarity measuring between two sentences is increasing. There is a lot of researches for

sentence similarity measurement methods in various directions such as n-gram, edit-distance and

LSA. However, these methods have their own advantages and disadvantages. In this paper, we propose

a new sentence similarity measurement method approaching from another direction. The proposed

method uses the set-based POI data search that improves search performance compared to the

existing hard matching method when data includes the inverse, omission, insertion and revision of

characters. Using this method, we are able to measure the similarity between two sentences more

accurately and more quickly. We modified the data loading and text search algorithm of the set-based

POI data search. We also added a word operation algorithm and a similarity measure between two

sentences expressed as a percentage. From the experimental results, we observe that our sentence

similarity measurement method shows better performance than n-gram and the set-based POI data

search.

Keywords: POI search, Set-based algorithm, sentence similarity, piracy test, text search

⋅이 논문은 2013년도 정부(교육부)의 재원으로 한국연구재단의 기 연구사업

지원을 받아 수행된 것임(2013R1A1A2013155)

논문 수 : 2014년 9월 30일

(Received 7 May 2014)

심사완료 : 2014년 10월 23일†

††

학생회원

종신회원

:

:

숙명여자 학교 멀티미디어과학과

[email protected]

숙명여자 학교 멀티미디어과학과 교수

(Sookmyung Womens Univ.)

[email protected]

(Corresponding author임)

(Accepted 20 June 2014)

CopyrightⒸ2014 한국정보과학회ː개인 목 이나 교육 목 인 경우, 이 작물

의 체 는 일부에 한 복사본 혹은 디지털 사본의 제작을 허가합니다. 이 때,

사본은 상업 수단으로 사용할 수 없으며 첫 페이지에 본 문구와 출처를 반드시

명시해야 합니다. 이 외의 목 으로 복제, 배포, 출 , 송 등 모든 유형의 사용행

를 하는 경우에 하여는 사 에 허가를 얻고 비용을 지불해야 합니다.

정보과학회 컴퓨 의 실제 논문지 제20권 제12호(2014. 12)

Page 2: 집합 기반 POI 검색을 이용한 문장 유사도 측정 기법집합 기반 POI 검색 기법은 데이터 로딩 알고리즘, 글 자 아이디 생성 알고리즘, 역 인덱스

712 정보과학회 컴퓨 의 실제 논문지 제 20 권 제 12 호(2014.12)

1. 서 론

최근 지 재산권에 한 심이 증가하면서 특허 쟁

논문 표 논란이 요한 이슈가 되고 있다[1]. 한

운 체제 내의 지능형 일 내용 검색에 한 심도

증가하고 있다[2]. 이런 사용자들의 요구를 충족하기

해서는 기 인 문장 유사도 측정 알고리즘 연구가 선

행되어야 한다.

문장 유사도 측정 알고리즘은 표 검사에 가장 많이

응용된다. 어에 한 연구는 많이 진행되었지만 한국

어에 한 연구는 미미한 실정이며 어에 비해 어순이

자유로운 한 은 기존에 많이 연구되었던 알고리즘을

용하는 데에 한계가 있다.

이에 한 에 맞는 문장 유사도 측정 알고리즘에 한

연구가 진행되었다. 편집거리와 n-gram 기반 문장 유

사도 측정법[3,4], LSA와 n-gram 기반 문장 유사도 측

정법[5] 등의 다양한 연구가 그것이다. 하지만 여 히

기존 측정방법에는 단 이 존재한다.

본 논문에서는 기존의 근 방향과는 다른 방향의 측

정 방법을 제시한다. 하드매칭 기법에 비해 단어의 도

치, 락, 오타에 뛰어난 성능을 보 던 집합 기반 POI

검색 알고리즘[6]을 이용한 근법이다. 집합 기반 검색

알고리즘을 변형하여 문장 유사도 측정에 응용하고 그

성능을 검증한다.

본 논문의 구성은 다음과 같다. 2장에서는 문장 유사

도 측정 련 연구와 집합 기반 POI 검색 알고리즘을

소개하고, 3장에서는 집합 기반 문장 유사도 측정 알고

리즘을 설명한다. 4장에서는 제안한 알고리즘의 성능을

검증하고, 5장에서 결론을 맺는다.

2. 련 연구

본 장에서는 기존에 연구되었던 문장 유사도 측정 방법

과 집합 기반 POI 검색 기법에 해서 간략히 설명한다.

2.1 편집거리와 n-gram 기반 유사도 측정

편집거리란 한 문자열이 다른 문자열로 변경되기

해 필요한 삭제, 삽입, 치환 연산의 수를 말한다[3,4].

를 들어, ‘string’이라는 문자열이 ‘strong’이 되기 해

서 ‘i’가 ‘o’로 치환되어야 하므로 편집거리는 1이 된다.

n-gram은 한 문자열을 n개 단 로 잘라 추출한 집합과

다른 문자열에서 추출한 집합의 교집합을 이용하여 유

사도를 측정하는 방식이다. 를 들어, ‘string’의 경우

tri-gram은 ‘str’, ‘tri’, ‘rin’, ‘ing’이며, ‘strong’은 ‘str’,

‘tro’, ‘ron’, ‘ong’ 이고, 이 둘의 교집합은 ‘str’이다.

편집거리와 n-gram을 이용한 방법은 문자열의 양이

많아질수록 많은 양의 장공간과 연산이 필요하기 때

문에 효율이 떨어지는 문제가 있다. 문맥을 고

려하지 않기 때문에 다른 문장임에도 불구하고 같은 문

장이라고 오인하기 쉽다.

이런 문제를 해결하기 해 두사 원소 선별을 이용

하여 연산의 양을 이는 연구가 제안되었다[3]. 하지만

연산 속도는 히 향상되었지만 정확성은 입증되지

않았다는 문제 이 있다. 문맥가 치를 반 하여 조

사, 어미같은 기능어를 제거하는 연구가 있었다. 문맥가

치를 반 한 측정법은 매개변수에 의해 검색 성능이

달라진다[4].

2.2 LSA와 n-gram 기반 유사도 측정

LSA(Latent Semantic Analysis)는 벡터 공간 모델

의 단 을 극복하기 해 제안된 모델이다[5]. 벡터 공

간 모델 방식은 정보 검색 모델의 한 종류로써, 각 문장

의 색인어를 벡터로 표 하여 문장간의 유사성을 측정

하는 방법이다. 벡터 공간 모델 방식은 색인어로 추출되

는 키워드가 정확히 일치해야한다는 문제가 있는데 이

런 문제를 해결하기 해 제안된 모델이 LSA이다.

LSA 모델은 의미 유사성을 탐지하는데 유용하고,

n-gram은 어순같은 형태 변경을 탐지하는데 유용하

다. 이 두 가지 모델을 조합하여 보다 성능이 뛰어난 모

델이 제안되었다. 이 모델은 원문복사, 단어치환, 어순변

경, 문장요약 4가지 유형의 표 에 잘 작동한다.

2.3 집합 기반 POI 검색 기법

집합 기반 POI 검색 기법[6]이란 집합 개념을 용하

여 POI 데이터를 검색하는 기법으로, 계산이 복잡하고

방 한 양의 데이터를 필요로 하는 기법을 사용하기 힘

든 차량 네비게이션과 같은 독립형 시스템을 한 알고

리즘이다. 부정확한 POI 질의어 입력으로 인한 POI 검

색 서비스 성능 하 문제를 시스템 자체 내에서 해결

하기 해 제시한 새로운 알고리즘이다.

집합 기반 POI 검색 기법은 데이터 로딩 알고리즘,

자 아이디 생성 알고리즘, 역 인덱스 생성 알고리즘, 텍스

트 검색 알고리즘으로 구성되며, 텍스트 검색 알고리즘은

처리 과정, 블록 내 연산, 블록 간 연산으로 구성된다.

그림 1은 세 개의 코드에 해 기존 집합 기반

POI 검색 기법에서 데이터 로딩부터 자 아이디와 역

인덱스를 생성하는 과정 를 표 한 것이다. 역 인덱스

란 해당 자가 어느 치에 있는지 나타내는 자료구조

를 의미하며, 그 자를 포함하고 있는 데이터의 번

호를 장한다.

이 게 생성된 역 인덱스는 텍스트 검색 알고리즘에

서 이용된다. 텍스트 검색을 할 때, 입력 받은 n개의 문

자로 이루어진 질의어를 m개의 블록으로 균등 분할하

여 각 블록 내 집합 연산을 수행하고 이 결과를 이용하

여 다시 블록 간 연산을 수행한다. 이때 ‘차수’라는 개념

을 사용하는데, 차수란 주어진 코드에 포함된 질의어

Page 3: 집합 기반 POI 검색을 이용한 문장 유사도 측정 기법집합 기반 POI 검색 기법은 데이터 로딩 알고리즘, 글 자 아이디 생성 알고리즘, 역 인덱스

집합 기반 POI 검색을 이용한 문장 유사도 측정 기법 713

그림 1 데이터 로딩, 자 아이디, 역 인덱스 생성 과정

Fig. 1 steps for loading data and generating character

ID and inverted indexes

그림 2 텍스트 검색 과정

Fig. 2 steps for searching text

내 자의 총 개수를 의미한다. 차수가 큰 데이터일수록

상 에 출력된다. 기존 집합 기반 POI 검색 기법에서

텍스트 검색 알고리즘의 동작 과정은 그림 2와 같다.

3. 집합 기반 POI 검색 기법을 이용한 문장 유

사도 측정

본 장에서는 집합 기반 POI 검색 기법을 이용한 문

장 유사도 측정 방법을 제안한다. 데이터 로딩 알고리즘

과 텍스트 검색 알고리즘을 변형시키고, 어 연산 알고

리즘을 추가함으로써 문장 유사도 측정이 가능하다.

3.1 변형된 데이터 로딩 알고리즘

데이터 로딩 알고리즘은 사용자가 제공한 데이터를

로딩하여 검색이 가능한 형태로 만드는 과정이다. 특정

한 양식으로 작성된 데이터베이스를 로딩하면서 데이터

베이스의 크기, 코드의 개수 같은 기본 인 정보를

악하고, 명칭 부분과 주소 부분으로 구분하여 장한다.

그림 3 변형된 데이터 로딩 알고리즘

Fig. 3 modified data loading algorithm

기존 데이터 로딩 알고리즘은 필드 구분 기호와 바

꿈을 이용하여 데이터를 가공했지만 변형된 데이터 로딩

알고리즘은 띄어쓰기와 마침표를 이용하여 데이터를 가

공한다. 기존에는 POI의 명칭 부분과 주소 부분을 장

했다면 변형된 알고리즘에서는 일의 내용과 해당 내용

이 일의 몇 번째 문장에서 몇 번째 어 인지를 장한

다. 그림 3은 변형된 데이터 로딩 알고리즘에서 기존 알

고리즘과 가장 차별 인 기 동작 과정을 표 한 것이다.

입력된 일을 변형된 알고리즘에 따라 그림 3과 같

은 데이터로 가공하면 그 이후의 동작은 집합 기반 POI

검색 기법과 동일하게 자 아이디 생성 알고리즘, 역인

덱스 생성 알고리즘을 수행할 수 있다.

3.2 변형된 텍스트 검색 알고리즘

텍스트 검색 알고리즘은 사용자가 질의어를 입력하면

역인덱스를 이용하여 결과를 출력한다. 처리 과정, 블

록 내 연산, 블록 간 연산으로 구성되며, 차수라는 개념

을 통해 가장 근 한 결과를 상 에 랭킹한다.

기존 집합 기반 POI 텍스트 검색 알고리즘은 질의어

가 하나의 단어로 입력되기 때문에 처리 과정이 간단

하다. 하지만 문장 유사도 측정 시 질의어가 문장으로

입력되기 때문에 처리 과정이 더 복잡해진다. 문장을

Page 4: 집합 기반 POI 검색을 이용한 문장 유사도 측정 기법집합 기반 POI 검색 기법은 데이터 로딩 알고리즘, 글 자 아이디 생성 알고리즘, 역 인덱스

714 정보과학회 컴퓨 의 실제 논문지 제 20 권 제 12 호(2014.12)

그림 4 변형된 텍스트 검색 알고리즘의 처리 과정

Fig. 4 modified preconditioning process for searching text

띄어쓰기와 마침표를 이용하여 분해한 후 각 어 에

하여 기존 텍스트 검색 알고리즘과 동일한 작업을 수행

한다. 그림 4는 추가된 처리 작업 과정을 표 한 것이다.

입력된 문장 “소녀는 물장난을 하고 있다”는 4개의

질의어로 분리된다. 분리된 각 질의어에 해서 기존 텍

스트 검색 알고리즘과 동일한 처리과정을 거친다.

3.3 어 연산 알고리즘

어 연산 알고리즘은 집합 기반 POI 검색 기법에서

는 포함되지 않았던 알고리즘으로, 문장 유사도 측정을

해 추가된 알고리즘이다. 입력된 문장을 몇 개의 질의

어로 나 어 따로 처리했기 때문에 각 처리 결과를 통

합하는 작업이 추가로 필요한 것이다. 어 연산 알고리

즘은 크게 네 부분으로 나뉜다. 어 매칭 연산(word

matching operation), 어 간 거리 연산(word distance

operation), 어 간 순서 연산(word sequence operation),

어 내 매칭 수 계산(in-word matching operation)

으로 나 수 있다.

어 매칭 연산에서는 한 문장이 질의어에 해 완

히 혹은 50%이상 매칭하는 어 의 개수를 찾는다. “개

와 고양이는 반려동물이다”와 “개와 고양이가 놀고 있

다”는 문장은 2개의 어 이 매칭된다. 집합 기반 POI

검색 기법에서 사용하는 ‘차수’라는 개념을 차용하여 각

문장에 차수를 매기고 차수가 높을수록 유사성이 큰 문

장으로 단한다.

같은 차수 내에서는 어 간 거리 연산과 어 간 순

서 연산으로 랭킹을 매긴다. 어 간 거리 연산은 두 어

간에 떨어진 거리를 측정하는데, 두 문장이 유사할수

록 어 간의 거리가 짧다는 을 이용한 연산이다. 이

런 형태 인 유사성 외에 의미 인 유사성에서도 서로

한 련이 있는 어휘는 가까이 붙어있을 확률이 높

는다는 에서 유용한 연산이다.

를 들어, “개와 고양이는 반려동물이다”라는 질의어

가 있다면, “개와”와 “고양이는” 어 에 해 “개와 고

양이가 놀고 있다”는 문장이 “개는 산책을 좋아하고, 고

양이는 그루 을 좋아한다”는 문장보다 유사성이 큰 것

으로 별된다.

그림 5 어 연산 알고리즘의 동작 과정

Fig. 5 steps for comparing two sentences

어 간 순서 연산은 어 의 나열 순서를 측정하여

순서 로 나열되어있을 경우 더 높은 수를 다. 를

들어, “개와 고양이는 반려동물이다”라는 문장은 “고양

이와 개는 반려동물이다”보다 높은 수를 받는다.

마지막으로 어 내 매칭 수를 고려한다. 질의어

“개와 고양이는 반려동물이다”에서 “고양이는” 어 에

해 “고양이가”보다 “고양이는”이 더 높은 수를 받는

다. 그림 5는 어 연산 알고리즘의 동작과정을 시를

들어 보인 것이다.

어 연산 알고리즘은 두 문장을 비교하여 나온 결과

값을 이용하여 최종 으로 다음 수식을 통해 문장 유사

도를 수치화한다.

SSInW =

(1)

SSOutW = {

(Dk - Dk-1) / (n-1) + S} (2)

SS = SSInW × 100 - SSOutW × 10 (3)

SST = N × 100 - 1 × 10 (4)

식 (1)은 어 매칭 연산과 어 내 매칭 수를 나

타낸다. 한 문장에서 질의어 문장과 일치하는 어 이 n

개 존재한다고 할 때, W는 어 내 매칭 비율을 나타

내며, 완 히 일치할 경우 1을 가진다.

식 (2)는 어 간 거리 연산과 어 간 순서 연산을

나타낸다. 한 문장에서 질의어 문장과 일치하는 인 한

어 들의 거리의 평균값을 구하고, 질의어 문장과 조

하여 순서가 뒤바 어 개수를 구한다. D는 해당 어

의 치를 나타내며, S는 순서가 뒤바 어 있는 어

개수를 나타낸다.

식 (1)과 식 (2)의 가 치를 식 (3)처럼 두어 최종 수

를 구한다. 식 (4)는 문장이 완 히 일치할 경우 최

수이며, N은 해당 문장의 어 개수를 나타낸다. 이 수와

최종 수의 비율을 구해 일치도를 백분율로 표 한다.

Page 5: 집합 기반 POI 검색을 이용한 문장 유사도 측정 기법집합 기반 POI 검색 기법은 데이터 로딩 알고리즘, 글 자 아이디 생성 알고리즘, 역 인덱스

집합 기반 POI 검색을 이용한 문장 유사도 측정 기법 715

4. 성능 평가

본 논문에서 제시하는, 집합 기반 POI 검색 기법을

이용한 문장 유사도 측정 알고리즘의 성능을 측정하기

해 실험을 수행하 다. 검색의 정확도를 측정하여 얼

마나 정확하게 유사도 측정이 가능한지 확인하 다.

제안하는 기법과 가장 유사한 n-gram과 기존 집합

기반 POI 검색 기법, 본 논문에서 제안하는 알고리즘을

비교하 다. 실험 자료는 문학에 해당하는 단편소설 한

편과 논리 인 에 해당하는 논문 한 편을 상으로

한다. 각 자료당 원문복사, 단어치환, 어순변경, 문장요

약 유형별로 25개씩 총 100개의 문장에 해 수행하

다. 해당 문장을 1 로 랭킹해서 출력할 경우, 성공으로

단하여 성공률을 측정하 다. 각 유형별 실험 데이터

를 로 들면 표 1과 같다.

표 2는 소설에 한 정확도를 측정한 실험결과를 나

타낸다. 각 유형 25개 문장에서 문장 유사도 1 에 랭크

된 횟수를 센 것이다. 원문복사일 경우 세 알고리즘 모

두 비슷한 성능을 보인다. 하지만 단어치환, 어순변경일

경우 기존 집합 기반 POI 검색 기법과 본 논문에서 제

안하는 알고리즘의 성능이 높다. 문장요약일 경우 어

표 1 실험데이터 시

Table 1 example of experiment data

type example

text

copy

본 논문의 구성은 다음과 같다.

본 논문의 구성은 다음과 같다.

word

replace

-ment

매일같이 개울가로 달려와 도 뵈지 않았다.

매일같이 냇가로 달려와 도 뵈지 않았다.

word

order

changes

추정 단계를 거친 후에는 유사도 측정 단계를

수행한다.

유사도 측정 단계는 추정 단계를 거친 후에

수행한다.

sentence

summary

소녀와 헤어져 돌아오는 길에, 소년은 혼잣속으로,

소녀가 이사를 간다는 말을 수없이 되뇌어 보았다.

소녀와 헤어진 후 소년은 소녀가 한 말을 수없이

되뇌어 보았다.

표 2 소설에서 정확도 실험결과

Table 2 result of accuracy experiment with novel

type n-gramthe set-based POI

data search

the proposed

algorithm

text copy 24 24 25

word

replacement21 24 24

word order

changes22 23 23

sentence

summary20 22 24

표 3 논문에서 정확도 실험결과

Table 3 result of accuracy experiment with paper

type n-gramthe set-based POI

data search

the proposed

algorithm

text copy 20 23 24

word

replacement17 22 24

word order

changes18 22 23

sentence

summary17 21 24

연산을 포함하는 본 논문에서 제안하는 알고리즘의 성

능이 더 좋은 것을 확인할 수 있다.

표 3은 논문에 한 정확도를 측정한 실험결과를 나

타낸다. 논문은 소설보다 한 문장이 길고 반복 인 어휘

를 사용한다는 에서 차이가 있다. n-gram의 성능이

반 으로 떨어지는 것을 확인할 수 있다. 네 가지 유

형에서 모두 본 논문에서 제안하는 알고리즘의 성능이

높은 것을 확인할 수 있다.

집합 기반 POI 검색 기법보다 본 논문에서 제안하는

기법이 약간 더 성능이 좋다. 이것은 집합 기반 POI 검

색에서는 한 문장 체를 한 코드로 취 하지만 본

논문에서 제안하는 기법은 문장의 어 을 한 코드로

취 하기 때문에 더 세 한 연산이 가능하기 때문이다.

5. 결 론

문장 유사도 측정은 표 검사와 일 검색에 반드시

필요한 선행연구이다. 그래서 다양한 방향으로 많은 연

구들이 진행되었고 각 기법 별로 장단 이 존재한다.

표 으로 편집거리와 n-gram 기반의 측정방법과 LSA

와 n-gram 기반의 측정방법이 있다.

본 논문에서는 집합 기반 POI 검색 기법을 이용하여

새로운 방향으로 근한 문장 유사도 측정 기법을 제시

하 다. 집합 기반 POI 검색 기법의 데이터 로딩 알고

리즘과 텍스트 검색 알고리즘을 변형하고 어 연산 알

고리즘을 추가하여 두 문장의 유사도를 백분율로 표

하 다. 그리고 실험을 통해 기존의 알고리즘보다 효율

성이 향상되었음을 확인하 다.

본 논문에서 이용한 집합 기반 POI 검색 기법은 후

행 연구인 복 자를 고려한 집합 기반 POI 검색 기법

[7]과 문자열 유사도 측정 기법[8]을 제외한 기 버

이다. 기 버 보다 더 정확한 성능을 보이는 다른 기

법들을 더 추가하면 보다 효율 인 기법이 될 것으로

기 된다. 표 검사뿐 아니라 부정확한 질의어에도

사용자가 원하는 내용을 검색하는 일 검색 시스템에

도 응용이 가능할 것이다.

Page 6: 집합 기반 POI 검색을 이용한 문장 유사도 측정 기법집합 기반 POI 검색 기법은 데이터 로딩 알고리즘, 글 자 아이디 생성 알고리즘, 역 인덱스

716 정보과학회 컴퓨 의 실제 논문지 제 20 권 제 12 호(2014.12)

References

[ 1 ] E. J. Oh, "Exploring the Information Ethics and

Plagiarism of University Students," International

Journal of Creativity & Problem Solving, Vol. 9,

No. 3, pp. 163-184, Jan. 2013. (in Korean)

[ 2 ] J. K. Cho, S. E. Ha, "Effective Scheme for File

Search Engine in Mobile Environments," Interna-

tional Jounal of Contents, Vol. 8, No. 11, pp. 41-48,

Nov. 2008. (in Korean)

[ 3 ] J. I. Kim, "Efficient Edit Similarity Search Technique

Using Prefix Element Selection," Journal of KIISE

: Computing Practices and Letters, Vol. 18, No. 9,

pp. 654-659, Sep. 2012. (in Korean)

[ 4 ] D. J. Kim, H. W. Kim, "Context-Weighted Metrics

for Example Matching," Journal of the Institute of

Electronics Engineers of Korea, Vol. 43, No. 6, pp. 43-

51, Nov. 2006. (in Korean)

[ 5 ] H. S. Ji, J. H. Joh, H. S. Lim, "A Detection Method

of Similar Sentences Considering Plagiarism Pat-

terns of Korean Sentence," Journal of the Korean

Association of Computer Education, Vol. 13, No. 6,

pp. 79-89, Nov. 2010. (in Korean)

[ 6 ] E. B. Go, J. W. Lee, J. W. Lee, "An Efficient

Set-based POI Search Algorithm," Journal of KIISE

: Computing Practices and Letters, Vol. 19, No. 5,

pp. 242-251, May. 2013. (in Korean)

[ 7 ] E. B. Ko and J. W. Lee, "Implementation of A Set-

based POI Search Algorithm Supporting Classifying

Duplicate Characters," Journal of Digital Contents

Society, Vol. 14, No. 4, pp. 465-471, Dec. 2013. (in

Korean)

[ 8 ] A. Y. Jin, J. W. Lee, J. W. Lee, "Measuring Method

of String Similarity for POI Data Retrieval," Journal

of KIISE : Computing Practices and Letters, Vol. 19,

No. 4, pp. 177-185, Apr. 2013. (in Korean)

고 은 별

2013년 숙명여자 학교 멀티미디어과학

과 졸업(학사). 2014년 숙명여자 학교

멀티미디어과학과 석사과정. 심분야는

검색시스템, 자연어처리, 알고리즘, 모바

일 소 트웨어

이 종 우

정보과학회 컴퓨 의 실제 논문지

제 20 권 제 11 호 참조