데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea
-
Upload
sanghee-kim -
Category
Education
-
view
972 -
download
0
description
Transcript of 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea
![Page 1: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/1.jpg)
데이터 탐사 그리고 SE김상희[email protected]
![Page 2: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/2.jpg)
Session 1
![Page 3: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/3.jpg)
과학 패러다임
![Page 4: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/4.jpg)
빅 데이터 / 스몰 데이터
![Page 5: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/5.jpg)
“네가 가진 데이터가 정말 빅 하다고 생각해?"
![Page 6: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/6.jpg)
데이터 처리의 흐름데이터 모으기(생성)
데이터 가공
데이터 분석
데이터 시각화
![Page 7: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/7.jpg)
데이터 처리와 관련 툴
각 툴에 대한 참고: http://goo.gl/ooYExB
google big query
apache lucene
manyeyes
d3
google chart API
matplotlib
pandas, numpy
open refine
data wrangler
tableau
NodeXL
splunk
데이터 모으기(생성)
데이터 가공
데이터 분석
데이터 시각화
![Page 8: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/8.jpg)
“트위터 데이터를 분석해보자."
![Page 9: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/9.jpg)
데이터 모으기(생성)
데이터 가공
데이터 분석
데이터 시각화
일단 한 번 해보기
![Page 10: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/10.jpg)
연장을 준비하자데이터 모으기(생성): Twitter API, Twython
데이터 가공: Python, Twython, IPython, Pandas
데이터 분석: Splunk, Python, IPython, Pandas
데이터 시각화: Splunk, matplotlib, Google Chart API
![Page 11: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/11.jpg)
Add a comment
By this query we see that the highest retweet on the nexus 5 is by google. Which shows that they have a strong voice when getting to their fans.
data: https://github.com/sangheestyle/bisonsampledatapresenation: http://goo.gl/MLFf96
스플렁크로 해보기Interesting query 1 of 3
![Page 12: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/12.jpg)
source="/Users/kimsanghee/Dev/datastore4bison/nexus_5_raw.csv.zip:./nexus_5_raw.csv"
By this query at launching time we see that the highest retweet by RT on the nexus 5 is by Sundar Pichai who is is a senior vice president at Google, where he oversees Android, Chrome and Google Apps. Which shows that he has a strong voice when getting to their fans.
트위터 데이터로 분석해보기Interesting query 2 of 3
data: https://github.com/sangheestyle/bisonsampledatapresenation: http://goo.gl/MLFf96
![Page 13: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/13.jpg)
Interesting query 3 of 3Top tweets show what organization is most influential during 19 days
2nd largest tweet is about promotional event for free nexus 5.
http://mobilesyrup.com/2013/11/02/win-a-google-nexus-5/
트위터 데이터로 분석해보기
data: https://github.com/sangheestyle/bisonsampledatapresenation: http://goo.gl/MLFf96
![Page 14: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/14.jpg)
“트위터 데이터로 분석해보기+ 툴과 생각 바꿔보기”
![Page 15: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/15.jpg)
Bison: Project OverviewObject: Analyzing tweets about mobile devicesSource & demo: https://github.com/sangheestyle/bisonHow Big: 789,051 tweetsTools: Python, Pandas, Numpy, Google ChartMember: Jacob, Sanghee
![Page 16: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/16.jpg)
What happen?http://goo.gl/L26mmP
![Page 17: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/17.jpg)
What happen once again?
Only two weeks!
http://goo.gl/1yaekZ
![Page 18: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/18.jpg)
What they use?http://goo.gl/OzYu0J
![Page 19: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/19.jpg)
When they do?http://goo.gl/Y28HrQ
![Page 20: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/20.jpg)
Where do they live?http://goo.gl/vyi1Gy
![Page 21: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/21.jpg)
“툴 변경은 단지 툴만 변경되는 것인가?”
![Page 22: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/22.jpg)
생각해보기
이거 어떻게 생각하냐? (마음에 드는건? 아닌건?)
정확성을 위해서 두 개의 그래프를 동시에 보여줘?
확장을 한다면 어떻게?
무슨 데이터를 더 제공한다면 너는 뭘 더 할 수 있지?
네가 만든 모델이 다른 곳에서 유효할까? (기간, 데이터 크기, 같은 카테고리의 다른 아이템, 다른 카테고리…)
![Page 23: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/23.jpg)
Session 1 마감+ 중간회고
![Page 24: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/24.jpg)
Session 2
![Page 25: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/25.jpg)
“40 percent of major decisions are based not on facts, but on the manager’s gut”
from Software Analytics = Sharing Information by Thomas Zimmermann http://goo.gl/WQ0BKv
![Page 26: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/26.jpg)
데이터 처리의 흐름데이터 모으기(생성)
데이터 가공
데이터 분석
데이터 시각화
![Page 27: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/27.jpg)
“Git 에서 나오는 데이터를 분석해보자."
![Page 28: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/28.jpg)
데이터 모으기(생성)
데이터 가공
데이터 분석
데이터 시각화
일단 한 번 해보기
![Page 29: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/29.jpg)
연장을 준비하자데이터 모으기(생성): Git
데이터 가공: Python, IPython, Pandas
데이터 분석: Splunk, Python, IPython, Pandas
데이터 시각화: Splunk, matplotlib, Google Chart API
![Page 30: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/30.jpg)
“미리 만들어 놓은 것으로 집단 감상을 해보자."
![Page 31: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/31.jpg)
“우리 집단의 특성을 시간순으로 알아보자."
![Page 32: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/32.jpg)
![Page 33: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/33.jpg)
![Page 34: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/34.jpg)
“누가누가 잘하나? 눈속임에 주의하면서!"
![Page 35: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/35.jpg)
![Page 36: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/36.jpg)
![Page 37: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/37.jpg)
![Page 38: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/38.jpg)
“분쟁지역! UN은 어디에?"
![Page 39: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/39.jpg)
![Page 40: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/40.jpg)
![Page 41: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/41.jpg)
![Page 42: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/42.jpg)
“다른것도 한 번 보자."
![Page 43: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/43.jpg)
https://github.com/twbs/bootstrap/graphs
![Page 44: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/44.jpg)
https://github.com/twbs/bootstrap/graphs
![Page 45: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/45.jpg)
“우리 이래도 되는거야?"
![Page 46: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/46.jpg)
생각해보기
미숙한 모델을 들이대지 말 것
상관관계
인센티브
![Page 47: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/47.jpg)
From SE lecture by Professor Ruth Dameron (University of Colorado, Boulder)
![Page 48: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/48.jpg)
개발: 어떤식으로 일을 하면 덜 고통스러울까?
교육: 우리는 어떠한 교육을 만들어내야 하는가?
HR: 어떤 사람들이 필요한가? 조직 구조는?
조직문화: 우리 조직의 특성은 어떠한가?
확장해보기
![Page 49: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/49.jpg)
어디서 어떻게 데이터를 수집 할 것인가?데이터는 집단을 충분히 반영하는가?데이터는 지속적으로 변경될 수 있다.
분석하는 방법에 따라서 정보는 달라질 수 있다.가정을 하고, 대화를 하고, 생각을 확장하자.집단 내 전문가들을 이용하자.
잘라내기보다 이상치를 조정해보자.의도적으로 툴을 바꿔보자.(그 외에는?)
중요한 점
![Page 50: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/50.jpg)
“(현 시스템 회고, 개선안 도출, 반영) X 지속적인 반복”
![Page 51: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/51.jpg)
“결론적으로 무엇을 하고 왜 할건데?”
![Page 52: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/52.jpg)
“커밋 개수로 개발자의 능력을 판단할 수 있을까?”
집단 토론
![Page 53: 데이터 탐사 그리고 SE - Jan 8 2014, mc lab, seoul, south korea](https://reader033.fdocuments.net/reader033/viewer/2022051412/54c2ddcc4a7959ec238b45bf/html5/thumbnails/53.jpg)
Session 2 마감+ 최종회고