Carpe Data: Supporting Serendipitous Data Integration in Personal Information Management

Carpe Data: Supporting Serendipitous Data Integration in Personal Information Management+ CHI 2013-Max Van Kleek et al./최진한x 2013 fall

13년 10월 23일 수요일

http://dl.acm.org/citation.cfm?id=2147790










Carpe Data: Supporting Serendipitous Data Integration in

Personal Information Management

Max Van Kleek, Daniel A. Smith, Heather S. Packer, Jim Skinner, Nigel R. Shadbolt

Web and Internet Science Research Group, Electronics and Computer Science University of Southampton, Southampton, UK

CHI 2013Session: Data Navigation

최진한10/23/13


Introduction

최근 몇년간 엄청난 종류와 양을 가진 데이터들이 쏟아지고 있다.: structured data APIs, downloadable data sets, new kinds of sensors and devices, 정부 지원

데이터를 공개하는 목적은 사용자에게 더 나은 결정을 할 수 있도록 도와주는 것이다.

개발자, 언론인, 데이터 전문가 등에 의해 데이터가 목적에 맞게 사용되고 있지만,

일반인들에게 긍정적인 영향을 주기에는 아직 어려움이 있는 상황이다.

저자들은 이러한 문제가 여러 종류의 데이터를 한데 모아 효과적으로 분석하여 볼 수 있는 툴이 부족한 것이 주요한 원인이라고 주장한다.

Background


Introduction

여러 데이터를 통합하고 조작하며 분석할 수 있는 적절한 툴의 부재로 일반인들이

Personal 데이터 속에서 의미있는 인사이트를 얻기가 어렵다.

Problem

사용자들이 데이터에서 인사이트를 얻기 위해, 사용자가 원하는대로 데이터들을

mixing 할 수 있는 확장된 PIM Tool을 만들고 이에 대한 가능성을 평가하고자 한다.

Aim

1. Pre-study 1: 다양한 정보원들을 이용하는 task의 종류 파악 및 task 수행 과정 이해

2. Pre-study 2: 데이터를 통합할 때 겪는 문제점을 파악

3. ‘DataPlatte’ : data mixing을 위한 인터페이스를 개발

4. Evaluation: 데이터 통합 과정과 결정 과정에서의 다각도 분석이 가능한지 평가

Procedure


PS.1 - Understanding Data Diversity in Everyday Tasks

웹의 다양한 정보원에서 정보를 수집하는 과정에 대한 updated understanding 얻기

Aim

8명(남7, 여1. 18세-32세) Semi-structured Interview

- 최근에 수행한 여러 종류의 정보원이 필요한 task에 대해 질문.

- 가상의 소셜 이벤트를 계획한다고 하고 계획을 세우는 task 요청(날짜 정하기, 장소 정하기, 적절한 놀거리 정하기 등 포함)

Method


PS.1 - Understanding Data Diversity in Everyday Tasks

모든 참여자들이 task를 수행할 때 다양한 웹사이트를 참조함쇼핑: 가격, 제품의 질, 배송기간을 고려제품 리뷰: 1개의 사이트는 bias될 수 있고, 충분히 다루지 않았을 우려가 있어서 제조사 사이트,

리뷰 사이트 등 여러개의 사이트를 참조

가상의 이벤트를 계획하는 task에서가장 먼저 친구와 상의를 하여 아이디어와 선호되는 것을 듣고, 추천을 받는다.

그리고 장소와 활동을 정할 때 경험, 추천, 구글 검색 결과, Yelp의 리뷰 등을 참고한다.

Result

모든 참여자들은 다수의 정보원을 이용하지만 정보들이 각각 분산되어서, 잘 알고 결정을

내리는것을 방해한다고 느낀다.

참여자들은 빠르고 쉽게 접근 가능한 주로 사용하는 정보원을 가지고 있다.

Findings


PS.2 - Technical Challenges of Data Integration

다양한 도메인에서 제공하는 데이터들의 일반적인 특징을 찾아서, data mixing에서 생기는 문제를 파악한다.

Aim

‘Programmable Web’ 사이트에서 social network, retailers, online event

calendar, music sites, weather의 카테고리에서 2-5개의 사이트를 선정함. 총 20개.

각 사이트에서 3-5개의 일반적인 레코드들을 수집함social: user profile

retail site: product informationcalendar: event time, data info.

music: on song listing

weather: forecast records

지표average width: # of properties

average depth: # of nested structures

degree of overlap: overlap in each category

Method


PS.2 - Technical Challenges of Data Integration

Amazon, Soundcloud, Twitter, Weather underground 등의 사이트를 분석함

각각의 데이터들의 property 이름이 서로 다르다.

enumerated type의 경우, 같은 property에 입력된 값의 형태가 다르다.

데이터 구조적인 불일치는 드물다.

Result


‘DataPalette’ : An Interface for Data Mixing

사용자들이 데이터들을 통합할 때 추가적인 프로그래밍 없이 사용할 수 있는 툴PS1 - 일반적으로 많이 사용되는 정보원의 종류 파악PS2 - 데이터간의 통합에서 겪는 일반적인 문제는 데이터의 용어와 구조의 다양함에서 생김



사용자들은 데이터 레코드의 값들을 보고 비교하기를 원한다.

Multi-path selection을 사용해서

같은 구조의 데이터 레코드들을 빠르게 비교할 수 있고,

서로 다른 property 이름을 가지고 있는 경우에 쉽게 통합할 수 있다.

Multi-path selection



데이터 통합에서 주요 이슈는 중복된 데이터 처리예) facebook, google+, LinkedIn의 겹치는 프로필을 하나로 관리하고 싶을때

자동으로 관리하는 방법은 각 서비스에서 제공하는 방식이 달라 가능한 방법이 없음 (PS2)

사용자가 직접 관리하기 편하도록 drag-and-drop 이용

Coreference consolidation

예) 레스토랑의 분위기 - “Casual dining” vs “Relaxed”

Enumerated-type value consolidation

VisualizationHovering tip


Evaluation

h1. Usability - 사람들이 DataPalette 사용법을 이해하는가h2. Data Integration - 툴을 사용하여 사람들이 효과적으로 서로 다른 데이터를 통합할 수 있는가h3. Task completion - 툴을 사용하여 task를 수행하는 능력이 향상되었는가

Within-subject. 20명(남10, 여10)

Condition A: DataPalette interface 사용Condition B: 웹사이트, 엑셀 사용

각 task를 10분안에 완료Task 1: 가상의 학생이 입학할 역사와 스포츠과학 코스에 맞는 대학 찾기입학시험 점수, 집 위치, 집에서 얼마나 떨어져도 괜찮은지, 등록금, 성비, 학업외 활동의 정보 주어짐

Task 2: Glasgow와 Cambridge에서 레스토랑 찾기 가상의 친구 12명의 정보, 집 위치, 선호하는 음식

Study design


Evaluation

Task performance

1. Efficiency (Time taken) : not significant difference

2. Thoroughness (Factors weighed in final choice) : condition A가 factor 수 많음3. Diversity (Data sources consulted) : condition A가 수 많음4. Effort (External cognition) : condition A에서 노트를 덜 함

Strategy

Condition A (DP case)가 모든 candidates를 검수하게 하고,

Condition B가 Successive elimination 전략을 취하게 한다.

Tool

대부분의 참여자들이 이해하기 쉬웠고 rent/buy, 구직, 전자제품 구입의 상황에서

또 사용하고 싶다고 함

Result


Does DataPalette enable data integration?

h1: 모든 참여자들이 툴이 사용하기 편하고 이해하기 쉬웠다고 응답

h2: 80%의 참여자들이 툴에서 제공하는 인터랙션을 사용하여 성공적으로 데이터를 통합하였음

h3: task performance를 평가하기 어려움. 툴을 사용하여 약간 빨라지긴 하였으나 통계적으로

유의미하지 않음

실험 참여자의 수가 적고 사람들의 선택에 영향을 미치는 요소가 많아서 효과를 검증하기 어렵다.

툴의 인터페이스의 크기를 늘여야한다.

많은 정보를 보고 싶어해서 창을 배열하는데 많은 시간을 소비한다.

데이터를 통합하고 나누는 등의 과정에 새로운 인터랙션을 추가하면 좋겠다.

Limitations


나와의 관계

측정할 수 없는 정보를 기록하기

위한 간접적인 방법

간접적 측정을 위한 지표 설정

쌓인 데이터에서 sensemaking을

도와주는 방법


Carpe Data: Supporting Serendipitous Data Integration in Personal Information Management

Documents

Transcript of Carpe Data: Supporting Serendipitous Data Integration in Personal Information Management