2 차 통계 생산 방안 - 가계 경활 연계 방안

43
2 차 차차 차차 차차 - 차차 차차 차차 차차 차차차차차 차차차 2011.10.19 1

description

2 차 통계 생산 방안 - 가계 경활 연계 방안. 조사연구실 심규호 2011.10.19. 1. 2. 4. 목차. 연구 배경. 선행사례 및 전문가 수요조사. 매칭 기법 및 매칭 결과. 3. 결론 및 향후 방향. 연구배경. 통계청 작성 통계 하나의 자료 안에 수록된 정보는 제한적 신뢰도 높은 연구의 수행과 정책 수립을 위해서는 충분한 자료의 확보가 중요 하나의 자료에서 분석에 필요한 정보를 얻는 것은 어려운 일 - PowerPoint PPT Presentation

Transcript of 2 차 통계 생산 방안 - 가계 경활 연계 방안

Page 1: 2 차 통계 생산 방안 - 가계 경활 연계 방안

2 차 통계 생산 방안- 가계 경활 연계 방안

조사연구실 심규호 2011.10.19

1

Page 2: 2 차 통계 생산 방안 - 가계 경활 연계 방안

목차

연구 배경

선행사례 및 전문가 수요조사

매칭 기법 및 매칭 결과

결론 및 향후 방향

3

2

4

1

2

Page 3: 2 차 통계 생산 방안 - 가계 경활 연계 방안

연구배경

• 통계청 작성 통계 하나의 자료 안에 수록된

정보는 제한적– 신뢰도 높은 연구의 수행과 정책 수립을 위해서는 충분한 자료의

확보가 중요

– 하나의 자료에서 분석에 필요한 정보를 얻는 것은 어려운 일

– 외부 연구기관에서 수행되는 패널조사의 경우 표본 수는 매우

적은 반면 수록 정보는 매우 방대하다는 특성을 가짐 .

3

Page 4: 2 차 통계 생산 방안 - 가계 경활 연계 방안

연구배경

• 데이터 매칭 (matching) 데이터 통합 (fusion)– 하나의 통계에서의 제한적인 정보를 다수의 통계의 통합으로

보완하는 기법

– 조사된 데이터에는 가구 식별번호 및 개인 식별 번호 , 나이 , 성별 등 공통적으로 포함된 항목이 있음

– 외부 연구를 위한 자료 제공항목에는 이러한 항목이 없어 매칭

연구는 사실상 불가능함 -> 외부 연구자의 불만족 증대

4

Page 5: 2 차 통계 생산 방안 - 가계 경활 연계 방안

연구배경

• 2 차 통계의 생산– 외부에서는 통계청 보고자료를 다수 이용하여 데이터 통합을

시도하고 분석에 이미 많이 활용하고 있음

– 본 연구는 외부 환경에 대응하고 기존 통계 간 연계를 통해 2 차

통계를 생산함으로써 기존 통계의 활용도를 높이고 저비용

고효율 통계생산을 목적으로 함

5

Page 6: 2 차 통계 생산 방안 - 가계 경활 연계 방안

선행사례 검토

• 호주– 데이터 연구를 통한 연구 분야에서 국제적으로 선두적 입지 차지

– 대표적으로 인구 보건 및 임상자료의 연계

– 1995 년부터 데이터 연계 시스템 (the western Australian data linkage system) 을 통해 258 개의 프로젝트에 데이터를

제공하여 708 개의 연구 성과물을 냄

– 연계 데이터의 활용을 통해 의료정책 관련 연구를 향상시키고

의약품의 부작용을 발견 , 비용을 절감하고 의료 시스템의

부정을 적발

6

Page 7: 2 차 통계 생산 방안 - 가계 경활 연계 방안

선행사례 검토

• 호주 데이터 연계의 원칙– 연계된 데이터는 오직 연구와 통계적 목적으로 활용

– 개인정보 유출 금지

– 연계자료 처리 방식에 대한 합의 필요

– 활성화를 위해 연구자의 광범위한 접근 기반 시설 필요• 통계청에서 시도 중 : MDSS 분석 시스템

– 데이터 이용과 이용자 간의 협력을 증진시킬 수 있는 적절한 관리

시스템이 필요

7

Page 8: 2 차 통계 생산 방안 - 가계 경활 연계 방안

선행사례 검토

• FEBRL(Freely extensible biomedical record linkage)– 오픈소스 소프트웨어 라이선스를 기반으로 무료 사용 가능

– Data Cleaning 과 표준화 , 인덱싱 , 필드비교 , 레코드 쌍

분류를 위해 최근 개발된 여러 기법들을 포함함

– 기존의 레코드 연계 기법과 새로운 레코드 연계 기법 모두를

학습하고 실험할 수 있게 해주는 훈련 도구일 뿐 아니라 수백

만개의 데이터 세트를 포함한 연계 작업 수행을 가능토록 함

8

Page 9: 2 차 통계 생산 방안 - 가계 경활 연계 방안

선행사례 검토

• FEBRL(Freely extensible biomedical record linkage)

9General Record Linkage Process

DataBase A

DataBase B

클리닝과 표준화블로킹 / 인덱싱

블로킹 / 인덱싱

클리닝과 표준화

필드 비교

매치 비 매치 매치 가능 검토

평가

Page 10: 2 차 통계 생산 방안 - 가계 경활 연계 방안

선행사례 검토

• 국내사례 ( 한국노동연구원 노동패널 )– 가구용 (HHID) 과 개인용 (PID) 데이터로 분류

– 가구와 가구 자료간 ( 시계열 연계 ), 개인과 개인 자료간 (시계열 ) 연계 , 가구와 개인 자료간 ( 횡단면 ) 연계 , 개인과

부가자료 간 ( 횡단면 ) 연계

– 연계 과정 사례• 가구자료에서 가구원 정보 추출

• 가구와 개인자료 간 연계

• 직업력 자료와 개인 자료의 연계

10

Page 11: 2 차 통계 생산 방안 - 가계 경활 연계 방안

선행사례 검토

• 국내사례 ( 경제활동조사 패널화 )– 통계청은 마이크로 데이터를 외부 연구자에게 제공하지만

자료간 연계 자료를 제공하지 않으며 , 개인 식별 및 자료 연계가

가능한 정보는 제공하지 않음

– 일부 연구자들은 통계청 데이터를 연계하여 분석과제를 수행

– 가장 대표적인 예가 경제활동인구조사 자료의 패널화

– 이를 통해 노동시장에서의 동태적 움직임 포착 가능

11

Page 12: 2 차 통계 생산 방안 - 가계 경활 연계 방안

선행사례 검토

• 국내사례 ( 경제활동조사 패널화 )– 월간 자료의 패널화를 위해 외부 연구자들은 가용한 여러 변수

( 생년월일 , 성별 , 가구원 지위 , 교육수준 ) 을 활용하여 “개인

ID” 를 구성하여 자료를 연계하는 방식 사용

– 남재량 (1997) 은 연접한 두 달을 연계하는 단기 월별 패널

형태를 탈피하여 장기 월별 패널 자료 구축

– 패널화를 통해 여러 유량변수 ( 노동력 상태별 유 , 출입률 , 실업

지속기간 등 ) 들을 측정하여 고용불안의 정도를 평가하고 분석

12

Page 13: 2 차 통계 생산 방안 - 가계 경활 연계 방안

선행사례 검토

• 통계청 자료 간 연계 분석 사례

13

저자 및 기관 활용 연계자료 연구내용

남재량( 서울대학교 ) 경제활동인구조사 패널화 실업률의 장기 추세변화분석

남재량( 한국노동연구원 ) 경제활동인구조사 패널화 실업지속 기간의 측정 및 분석

이병희( 한국노동연구원 ) 경제활동인구조사 패널화 노동이동과 경력변동 실태분석

김혜원( 한국노동연구원 ) 경제활동인구조사 패널화 직장이동의 규모와 결정요인분석

김혜원( 한국노동연구원 )

경활 + 경활 근로 부가조사

직장이동의 선택과 임금성과 및 직장이동 유형에 따른 단기 임금 변화 분석

이병희( 한국노동연구원 )

경활 + 경활 근로 부가조사

최저임금 인상이 직장 유지에 미치는 영향력 분석

Page 14: 2 차 통계 생산 방안 - 가계 경활 연계 방안

선행사례 검토

• 통계청 자료 간 연계 분석 사례

14

저자 및 기관 활용 연계자료 연구내용

이병희( 한국노동연구원 ) 경활 + 가계조사

- 연 구 내 용 : 경 활 과 가 계 조 사 의 연계자료를 통해 저소득 노동시장의 실태 및 동태 분석- 『저소득 노동시장 분석 (2008)』

김혜원 ·윤자영(2009 년 )

( 한국노동연구원 )경활 + 가계조사

- 연 구 내 용 : 경 활 과 가 계 조 사 의 연계자료를 통해 모자가구 여성가장의 빈곤과 고용 분석- 『여성가장 가구의 고용과 빈곤 연구(2009)』

김혜련 (2009 년 )( 통계개발원 )

경활 + 가계조사(2005~2009 년 )

- 연 구 내 용 : 경 활 과 가 계 조 사 의 연계자료를 통해 근로빈곤 현황 결정요인 , 근로빈곤의 동태 적 현황 분석 -『근로빈곤의 동태적 분석 (2009)』

Page 15: 2 차 통계 생산 방안 - 가계 경활 연계 방안

전문가 수요조사

• 조사개요– 통계청 마이크로 데이터 이용자 및 통계청 용역과제 연구자를

중심으로 2 차 자료 수요관련 외부 전문가 조사 실시

– 조사기간 2011.02.14~2011.02.25 – 조사방법 : 인터넷 조사

– 조사대상 : 총 1,179 중 응답자 109명 9.12% 회수

– 공공기관 43명 , 연구기관 24명 , 교육기관 31명 , 기업 6명 , 기타 5명

15

Page 16: 2 차 통계 생산 방안 - 가계 경활 연계 방안

전문가 수요조사

• 조사내용

16

통계청 마이크로 데이터 사용 경험

통계청 마이크로 데이터 사용여부사용 데이터 분야 및 활용 분석 분야마이크로데이터 사용하여 작성된 대표적 논문마이크로데이터 사용 시 어려운 점 및 이의 해결방법

통계 연계분석 경험연계분석경험 유무연계분석 자료 및 연계목적연계방법 및 연계분석에 적용한 통계적 기법

향후 2 차 통계 수요관련 통계청 제공 희망 2 차 통계 2 차 통계 자료 활용계획 분야

인적사항 소속 및 소속기관 유형

Page 17: 2 차 통계 생산 방안 - 가계 경활 연계 방안

전문가 수요조사

17

• 조사결과– 통계청 마이크로 데이터 사용경험 : 91.7%

Page 18: 2 차 통계 생산 방안 - 가계 경활 연계 방안

전문가 수요조사

18

• 조사결과– 마이크로 데이터를 활용하여 분석한 영역

– 가구분야에서는 “경제활동인구조사”와 “가계동향조사”가

가장 많고 인구사회분야에서는 “인구주택총조사”와 “

사망원인통계조사”가 많으며

– 사업체 분야에서는 “전국사업체조사“ , ” 광업제조업조사”

순으로 나타남

Page 19: 2 차 통계 생산 방안 - 가계 경활 연계 방안

전문가 수요조사

19

• 조사결과– 마이크로 데이터를 활용하여 분석한 영역

– 마이크로데이터를 활용하여 논문 또는 보고서를 작성한 경우는

35.8% (39명 /109명 ) 이며 , 나머지는 내부적으로 이용

분야 통계 마이크로데이터 백분율

가구

가구 경제활동인구조사 21.10%

가계동향조사 14.70%

인구 인구주택총조사 27.50%

사회 사망원인통계조사 19.30%

사업체 광공업

건설

광업제조업조사 24.80%

전국사업체조사 27.50%

Page 20: 2 차 통계 생산 방안 - 가계 경활 연계 방안

전문가 수요조사

20

• 조사결과– 통계청 마이크로 데이터 사용시 어려움

Page 21: 2 차 통계 생산 방안 - 가계 경활 연계 방안

전문가 수요조사

21

• 조사결과– 통계청 마이크로 데이터 사용시 어려움 해소 방법

Page 22: 2 차 통계 생산 방안 - 가계 경활 연계 방안

전문가 수요조사

22

• 조사결과– 자료 연계분석 경험 : 36.7%– 연계분석에 활용한 자료의 개수는 2 개의 자료를 연계한 경우가

95.12% 로 가장 많으며 3 개 이상의 자료를 연계하는 경우도

4.88% 로 나타남

Page 23: 2 차 통계 생산 방안 - 가계 경활 연계 방안

전문가 수요조사

23

• 조사결과– 가공방법으로는 “지역정보” , “ 가구정보” , “ 주민번호” , “ 기업

키” 등의 순으로 연계에 사용한다고 응답하였으며 “통계적 기법”

을 사용한다는 응답도 5명으로 나타남

Page 24: 2 차 통계 생산 방안 - 가계 경활 연계 방안

전문가 수요조사

24

• 조사결과– 통계청에서 제공받고자 하는 2 차 자료

– 2 차 자료로 요구하는 통계로는 통계청 내부자료 연계를

요청하는 응답이 33명 , 통계청과 외부자료의 연계를

요청하는 응답이 39명으로 통계청 내부뿐만 아니라

외부자료와의 연계도 많이 요청하는 것으로 나타남

Page 25: 2 차 통계 생산 방안 - 가계 경활 연계 방안

전문가 수요조사

25

• 조사결과– 통계청에서 제공받고자 하는 2 차 자료 : 내부자료

활용 통계 활용 내용 및 목적

인구주택총조사 + 가계 + 가구 + 인구동향 지역의 지구단위 인구특성분석 , 지구별 정비 및 사업타당성 분석

인구주택총조사 + 가계동향조사 인구총조사 기반의 동향 정보 추출

인구주택총조사 + 경제활동인구조사 노동이동 및 주거이동분석

인구주택총조사 + 국내인구이동통계 인 구 이 동 특 성 및 원 인 분 석 , 인 구 및 주 택 정 책 근거자료 활용

인구주택총조사 + 사망원인통계조사 사망원인별 사회적 환경분석

인 구 주 택총조 사 + 경 제 활 동 인 구 조 사 +생활시간조사

가계의 경제활동 및 출산동향과 생활시간

가계동향조사 + 경제활동인구조사 가구내 근로자의 근로행태 정보 분석

가계동향조사 +농가경제조사 농어촌 (읍면 ) 지역 내 농가 / 비농가 소득 비교

가계동향조사 + 지역별고용조사 지역의 소비구조분석

가계동향조사 + 사교육비조사 가계소득과 사교육비지출의 관계 분석 교육정책

Page 26: 2 차 통계 생산 방안 - 가계 경활 연계 방안

전문가 수요조사

26

• 조사결과– 통계청에서 제공받고자 하는 2 차 자료 : 외부자료

활용 통계 활용 내용 및 목적

인구주택총조사 + 국세청자료 부담가능주택의 실태조사에 따른 주택정책반영 인구주택총조사 + 사망원인통계 + 국민건강보험 질병 , 사인의 사회경제적차이를 파악 정책활용 인구주택총조사 + 주민등록통계 + 외국인등록인구 실질적인 외국인 연구 경제활동인구조사 + 고용보험 DB 고용보험 상태와 경제활동상태 연계 경제활동인구조사 + 고용보험 DB 고용동향 분석 , 산업별 노동수급현황 파악 경제활동인구조사 + 고용보험 DB 청년층 고용상황분석 경제활동인구조사 + 고용보험 DB 고용보험 사각지대 추정 경제활동인구조사 + 국민건강보험 DB 정규직 / 비정규직의 명확한 구분 경제활동인구조사 + 국세청 자료 지역별 소비동향 파악 경제활동인구조사 + 노동패널 경제활동 이동경로 변화 분석 , 자영업자고용현황 경제활동인구조사 + 노동패털+ 고용보험 DB 고용구조 , 취업여부 등 분석 경제활동인구조사 + 청소년패널 경활 변화의 청소년에 대한 영향 분석 가계동향조사 + 청소년패널 가계변화의 청소년에 대한 영향 분석

Page 27: 2 차 통계 생산 방안 - 가계 경활 연계 방안

전문가 수요조사

27

• 조사결과– 통계청 자료를 연계하여 분석에 필요한 연계자료 제공

Page 28: 2 차 통계 생산 방안 - 가계 경활 연계 방안

전문가 수요조사

28

• 조사결과– 통계청 및 외부 자료를 연계하여 분석에 필요한 연계자료 제공

Page 29: 2 차 통계 생산 방안 - 가계 경활 연계 방안

매칭 기법

29

정확 매칭(exact matching)

판단 매칭(judgemental match-

ing)

확률적 매칭(probability match-

ing)

통계적 매칭(statistical matching)

데이터 연결(data linkage)

주민등록번호 , 보 험 번 호 , 사회보 장 번 호 등 “개인 ID” 를 통한 데이터 결합

데이터 결합의 가 장 이 상 적 인 형태임

정확히 일치되는 key 변 수 는 없 으 나 , 주 관 적 판단에 의한 자료 매칭

정 확 매 칭 의 key 변 수 에 오 류 가 있 을 때 정 확 성 에 따 라 가 중 치 를 주 고 확 률 적 으 로 자 료 매칭하는 방법

개 인 식 별 가 능 변 수 가 없 을 시 사용하는 자료 매칭 방법

단계적 매칭 , k-최근접이웃 매칭 , 랜덤 핫덱 등

복수의 데이터 파일 에 서 변 수 들 간 연 관 성 을 만 들 어 데 이 터 갱신이 가능하도록 결합하는 방법

Page 30: 2 차 통계 생산 방안 - 가계 경활 연계 방안

매칭 기법

30

단계적 매칭 알고리즘 K- 최근접 이웃 매칭 알고리즘

회 귀 분 석 매 칭 알고리즘

회귀분석과 k- 최 근 접 이웃방 법 결합 알고리즘

랜덤 -핫덱 방법

로 지 스 틱 회귀분 석 결 과 를 이용하여 ‘자료의 근사성’을 측정

수 용 파 일 과 제공파일을 추정된 회귀식에 적합시켜 얻은 값을 근사성 측 정 을 위 한 점수로 사용

상 대 적 으 로 유 사 한 ‘ k 개 ’의 개체를 선 택 하 여 매 칭 에 사 용 하 는 방법

공통변수 ‘ X’ 를 이 용 하 여 가 장 가까운 ‘ k 개 ’의 개체를 선택한 후 , 이 를 이 용 해 ‘통 합 변 수 ’ 를 추가시킴

하나의 회귀모형 추정 후 , 추정된 회 귀 모 형 을 이용하여 두 개의 데 이 터 파일 에 서 예측치를 구함

두 파 일 의 예 측 치 사 이 의 거리가 가장 짧은 개체를 찾음

‘ 회귀분석기법’+ k- 최근접 이웃 접근법

가 장 가 까 운 개체가 아닌 ‘ k 개’의 개 체 를 이 용 하 여 ‘통 합 변 수 ’ 를 추가시키는 방법

‘ 수용자 파일’의 각 관 측 치 에 ‘제 공 자 ’ 파일 의 관측치를 랜덤하게 선 택 하 여 매칭시키는 방법

Page 31: 2 차 통계 생산 방안 - 가계 경활 연계 방안

매칭

31

• 결합데이터구분

경제활동인구조사 (2010 년 기준 ) 가계동향조사 (2010 년 기준 )

조사주기 매월 매월

조사대상매월 15 일 대한민국에

상주하는 만 15 세 이상인 자 * 전국의 일반가구 **

조사기간매월 15 일이 포함된 1 주간

( 일 ~ 토 ) 매월 1 일 ~말일

표본설계( 모집단 )

인구총조사 (2005 년 ) 10% 표본조사구 중 섬 , 시설단위 조사구를 제외한 27,011

조사구

인구총조사 (2005 년 ) 10% 표본조사구 중 섬 , 시설단위 조사구를 제외한 27,011

조사구

표본규모32,000 가구

약 7천만 개인9,000천 가구

조사표 항목

인적사항 (6 개 ), 확인항목 (5개 ),

취업자 항목 (6 개 ), 실업자 항목 (7 개 ),

비경제활동인구 항목 (4 개 ), 기타 (7 개 )

가구주 특성 , 가구의 수입 및 지출 ,

가구구성 및 주거특성

Page 32: 2 차 통계 생산 방안 - 가계 경활 연계 방안

매칭

32

• 가계 + 경활 연계자료 현황 ( 가구명부 작업 X)

Page 33: 2 차 통계 생산 방안 - 가계 경활 연계 방안

매칭

33

• 가계 + 경활 연계자료 현황 ( 가구명부 작업 O)

Page 34: 2 차 통계 생산 방안 - 가계 경활 연계 방안

매칭

34

• 가계 경활 가중치레이어 기존가중치

12 개월 평균새로운 가중치 12 개월 평균 레이어 기존가중치

12 개월 평균새로운 가중치 12 개월 평균

1 1464.545 1.050 26 1167.027 1.053 2 1320.446 1.045 27 1171.198 1.064 3 1616.264 1.046 28 555.802 1.065 4 1114.112 1.057 29 347.651 1.041 5 1381.392 1.057 30 426.325 1.060 6 1410.730 1.038 31 613.129 1.062 7 1544.879 1.059 32 580.225 1.062 8 670.463 1.042 33 351.467 1.061 9 545.679 1.059 34 408.960 1.045 10 706.750 1.061 35 431.579 1.055 11 576.229 1.052 36 541.137 1.085 12 579.672 1.046 37 341.944 1.064 13 862.202 1.078 38 431.858 1.065 14 654.406 1.063 39 896.114 1.064 15 653.067 1.057 40 429.234 1.044 16 556.173 1.048 41 409.218 1.048 17 722.184 1.039 42 461.813 1.063 18 638.155 1.047 43 633.880 1.046 19 810.633 1.058 44 416.770 1.055 20 1054.712 1.048 45 508.063 1.063 21 1167.956 1.044 46 653.765 1.048 22 1247.379 1.076 47 394.042 1.062 23 805.024 1.048 48 608.764 1.043 24 1146.973 1.058 49 703.012 1.063 25 1101.321 1.048 50 376.526 1.055

Page 35: 2 차 통계 생산 방안 - 가계 경활 연계 방안

분석 예시

35

• 청년층 상용 , 임시 , 일용 , 그 외의 소득 , 소비

Page 36: 2 차 통계 생산 방안 - 가계 경활 연계 방안

분석 예시

36

• 근로자가 전혀 없는 가구와 아닌 가구의 소득 , 소비

Page 37: 2 차 통계 생산 방안 - 가계 경활 연계 방안

분석 예시

37

• 가구당 근로자 수 별 소득 , 소비

Page 38: 2 차 통계 생산 방안 - 가계 경활 연계 방안

분석 예시

38

• 맞벌이 가구의 소듯 , 소비 형태

Page 39: 2 차 통계 생산 방안 - 가계 경활 연계 방안

분석 예시

39

• 소득 수준과 맞벌이 상태 별 소득 , 소비 형태

Page 40: 2 차 통계 생산 방안 - 가계 경활 연계 방안

분석 예시

40

• 소득 수준과 가구당 근로자수 별 소득 , 소비 형태

Page 41: 2 차 통계 생산 방안 - 가계 경활 연계 방안

결론

• 연계 작업 결과

– 가구명부를 활용하여 99.5% 의 연계율을 확인• 전출 및 표본 대체에 의한 비매칭은 해결하기 어려움

– 가구가중치를 이용한 가중치 재 작성• 매칭 작업에서 비매칭 가구를 제거하고 가중치 재작성

• 최대 0.02%P 차이로 큰 문제 없이 적용 가능

41

Page 42: 2 차 통계 생산 방안 - 가계 경활 연계 방안

결론

• 2 차 통계 생산의 당위성

– 전문가 설문조사 결과 2 차 통계의 요구가 많다는 것을 알 수

있으며 통계청 자료의 원활한 활용을 위해서도 2 차 통계의

생산은 필요함

– 외부 연구에서 통계청 1 차 자료를 잘못 사용하는 사례를

방지하기 위해서도 2 차 자료를 제공하는 것이 바람직

42

Page 43: 2 차 통계 생산 방안 - 가계 경활 연계 방안

감사합니다 !

43