Data scientist vccorp 2016
-
Upload
tuan-hoang -
Category
Data & Analytics
-
view
214 -
download
0
Transcript of Data scientist vccorp 2016
![Page 2: Data scientist vccorp 2016](https://reader034.fdocuments.net/reader034/viewer/2022051404/587968c21a28ab1e388b7b5b/html5/thumbnails/2.jpg)
Nội dung � Giới thiệu về VCCORP � Những thách thức tại VCCORP � Những bài toán chính
2
![Page 3: Data scientist vccorp 2016](https://reader034.fdocuments.net/reader034/viewer/2022051404/587968c21a28ab1e388b7b5b/html5/thumbnails/3.jpg)
1. Giới thiệu về VCCORP
3
![Page 4: Data scientist vccorp 2016](https://reader034.fdocuments.net/reader034/viewer/2022051404/587968c21a28ab1e388b7b5b/html5/thumbnails/4.jpg)
4
Overview
ü First mover DNA ü 50% YoY Growth
ü 33M web audience
ü 22M mobile audience
ü 1,600 employees
Investors
1. Giới thiệu về VCCORP
![Page 5: Data scientist vccorp 2016](https://reader034.fdocuments.net/reader034/viewer/2022051404/587968c21a28ab1e388b7b5b/html5/thumbnails/5.jpg)
1. Big Data ở VCCORP � Bắt đầu sớm từ 2007 với dự án Baamboo search. � Từ năm 2009, bắt đầu thử nghiệm xây dựng hệ thống Big Data phục vụ hệ thống quảng cáo.
� Hiện nay được nghiên cứu phát triển xây dựng các sản phẩm phục vụ cho các hệ thống � Quảng cáo � Nội dung số � Thương mại điện tử � Game
� Nhân sự hiện tại: 60 người
5
![Page 6: Data scientist vccorp 2016](https://reader034.fdocuments.net/reader034/viewer/2022051404/587968c21a28ab1e388b7b5b/html5/thumbnails/6.jpg)
2. Những thách thức ở VCCORP � Tự xây dựng và làm chủ công nghệ (in house) � Lượng dữ liệu và quy mô dữ liệu lớn � Số lượng bài toán cần xử lý lớn, trải rộng trên nhiều lĩnh vực
� Luôn phải sáng tạo mới, đáp ứng bài toán mới, đặc thù riêng
� Nhân lực chưa đủ
6
![Page 7: Data scientist vccorp 2016](https://reader034.fdocuments.net/reader034/viewer/2022051404/587968c21a28ab1e388b7b5b/html5/thumbnails/7.jpg)
2. Qui mô dữ liệu
7
![Page 8: Data scientist vccorp 2016](https://reader034.fdocuments.net/reader034/viewer/2022051404/587968c21a28ab1e388b7b5b/html5/thumbnails/8.jpg)
3. Những nhóm bài toán chính � Nhận diện hành vi người dùng Internet � Tối ưu hóa quảng cáo � Core NLP và ứng dụng � Hệ thống phân phối, gợi ý tin tức � Recommendation Engine
8
![Page 9: Data scientist vccorp 2016](https://reader034.fdocuments.net/reader034/viewer/2022051404/587968c21a28ab1e388b7b5b/html5/thumbnails/9.jpg)
3.1. Nhận diện hành vi người dùng Internet � Bao gồm các bài toán
� Demographic: giới tính, nhóm tuổi � Behavioral: sở thích, thói quen � Cross devices: nhận diện cùng 1 người dùng trên nhiều thiết bị
9
![Page 10: Data scientist vccorp 2016](https://reader034.fdocuments.net/reader034/viewer/2022051404/587968c21a28ab1e388b7b5b/html5/thumbnails/10.jpg)
Demographic -‐ Behavioral � Nhận diện theo giới tính: nam/nữ. � Nhận diện theo nhóm tuổi: dưới 18, từ 18 – 24, từ 25 – 34, từ 35 – 49, trên 50.
� Nhận diện theo sở thích: tập 12 sở thích cơ bản. � Kết quả:
� Độ chính xác nhận diện giới tính: 82.5% � Độ chính xác nhận diện nhóm tuổi: 67.5%
10
![Page 11: Data scientist vccorp 2016](https://reader034.fdocuments.net/reader034/viewer/2022051404/587968c21a28ab1e388b7b5b/html5/thumbnails/11.jpg)
Demographic -‐ Behavioral
11
![Page 12: Data scientist vccorp 2016](https://reader034.fdocuments.net/reader034/viewer/2022051404/587968c21a28ab1e388b7b5b/html5/thumbnails/12.jpg)
Cross Device
12
![Page 13: Data scientist vccorp 2016](https://reader034.fdocuments.net/reader034/viewer/2022051404/587968c21a28ab1e388b7b5b/html5/thumbnails/13.jpg)
Cross devices � Giải pháp: xây dựng thuật toán đoán nhận người dùng dựa trên các thói quen về: � IP � Website � Sở thích, thói quen � Demographic � Time frame
� Kết quả: độ chính xác 68%
13
![Page 14: Data scientist vccorp 2016](https://reader034.fdocuments.net/reader034/viewer/2022051404/587968c21a28ab1e388b7b5b/html5/thumbnails/14.jpg)
3.2. Tối ưu hóa quảng cáo � Áp dụng các kỹ thuật tiên tiến nhất trên thế giới:
� Personalization � Audience Targeting Platform � Real Time Bidding � Retargeting � Contextual Targeting
14
![Page 15: Data scientist vccorp 2016](https://reader034.fdocuments.net/reader034/viewer/2022051404/587968c21a28ab1e388b7b5b/html5/thumbnails/15.jpg)
15
PersonalizaYon
![Page 16: Data scientist vccorp 2016](https://reader034.fdocuments.net/reader034/viewer/2022051404/587968c21a28ab1e388b7b5b/html5/thumbnails/16.jpg)
Audience TargeYng Pla[orm � Lựa chọn tập khách hàng mục tiêu theo các tiêu chí:
� Web site � Location � Nam/nữ � Nhóm tuổi � Retargeting � Sở thích/thói quen
� Tạo ra được tập khách hàng đúng mục tiêu
16
![Page 17: Data scientist vccorp 2016](https://reader034.fdocuments.net/reader034/viewer/2022051404/587968c21a28ab1e388b7b5b/html5/thumbnails/17.jpg)
Real Time Bidding � Đấu giá quảng cáo theo thời gian thực � Người mua quảng cáo lựa chọn giá mua tại từng thời điểm, theo nhu cầu, khả năng.
� Lợi ích: � Mua theo nhu cầu � Kiểm soát được giá mua � Hiệu quả cao
17
![Page 18: Data scientist vccorp 2016](https://reader034.fdocuments.net/reader034/viewer/2022051404/587968c21a28ab1e388b7b5b/html5/thumbnails/18.jpg)
RetargeYng � Đeo bám người dùng Internet trên các hệ thống sau khi họ xem sản phẩm của nhà quảng cáo.
� Độ phủ rộng, phủ đến tập người dùng lớn. � Hiệu suất quảng cáo cao: gấp từ 4 – 20 lần quảng cáo thông thường.
� Cung cấp hệ thống Dynamic Retargeting
18
![Page 19: Data scientist vccorp 2016](https://reader034.fdocuments.net/reader034/viewer/2022051404/587968c21a28ab1e388b7b5b/html5/thumbnails/19.jpg)
Contextual TargeYng � Giải pháp quảng cáo theo ngữ cảnh, nội dung của bài viết.
� Khách hàng có thể lựa chọn từ khóa, nội dung muốn quảng cáo và quảng cáo của khách hàng sẽ được ưu tiên hiển thị tại các nội dung này.
� Ví dụ: ngân hàng A có thể lựa chọn các nội dung nói về họ, hoặc các từ khóa về họ như ngân hàng bán lẻ, hệ thống ATM…
� Hiệu suất quảng cáo: hiệu suất cao, đúng ngữ cảnh.
19
![Page 20: Data scientist vccorp 2016](https://reader034.fdocuments.net/reader034/viewer/2022051404/587968c21a28ab1e388b7b5b/html5/thumbnails/20.jpg)
3.3. CORE NLP � Tokenizer: 98.8% � POS Tagging: 94.50% � NER: 84.8% � Coreference: 57% � Dependency Grammar: 73% � Chunking: 83%
20
![Page 21: Data scientist vccorp 2016](https://reader034.fdocuments.net/reader034/viewer/2022051404/587968c21a28ab1e388b7b5b/html5/thumbnails/21.jpg)
SenYment Analysis
21
![Page 22: Data scientist vccorp 2016](https://reader034.fdocuments.net/reader034/viewer/2022051404/587968c21a28ab1e388b7b5b/html5/thumbnails/22.jpg)
SenYment Analysis � Thuật toán: sử dụng kết quả của NLP, ứng dụng Machine Learning
� Kết quả: độ chính xác 70%
22
![Page 23: Data scientist vccorp 2016](https://reader034.fdocuments.net/reader034/viewer/2022051404/587968c21a28ab1e388b7b5b/html5/thumbnails/23.jpg)
3.4. Phân phối và gợi ý Yn tức � Personalization cho news � Các bài toán xử lý:
� Event detection � Trending detection � Breaking news detection
� Áp dụng thử nghiệm trên các báo lớn: dantri, kenh14, soha…
23
![Page 24: Data scientist vccorp 2016](https://reader034.fdocuments.net/reader034/viewer/2022051404/587968c21a28ab1e388b7b5b/html5/thumbnails/24.jpg)
3.5. RecommendaYon Engine � Xây dựng hệ thống gợi ý mua hàng cho các trang thương mại điện tử
� Đưa ra gợi ý dựa trên các thông tin � Lịch sử mua hàng và thói quen sử dụng Internet � Thông tin về sản phẩm và người mua
� Thuật toán áp dụng: � NER + Deep Neural Network � Knowledge Network thông tin sản phẩm � Collaborative filtering
� Kết quả: 40% sản lượng website đến từ hệ thống gợi ý mua hàng
24
![Page 25: Data scientist vccorp 2016](https://reader034.fdocuments.net/reader034/viewer/2022051404/587968c21a28ab1e388b7b5b/html5/thumbnails/25.jpg)
Kết quả RE
25
![Page 26: Data scientist vccorp 2016](https://reader034.fdocuments.net/reader034/viewer/2022051404/587968c21a28ab1e388b7b5b/html5/thumbnails/26.jpg)
Và thêm nữa…
26
![Page 27: Data scientist vccorp 2016](https://reader034.fdocuments.net/reader034/viewer/2022051404/587968c21a28ab1e388b7b5b/html5/thumbnails/27.jpg)
Thanks
27