大数据知识及技术简介(Introduction to basic concepts and techiques of big data in Chinese)

Post on 12-Jul-2015

136 views 3 download

Transcript of 大数据知识及技术简介(Introduction to basic concepts and techiques of big data in Chinese)

大数据知识及技术简介

作者:李烨

内容提纲

• 背景介绍

• 基础概念

• 大数据

• 大数据分析

• 相关技术

• 相关职位

• 社会影响

信息过载

• 1880 美国人口普查

• 1941 “信息爆炸”

• 1944 Fremont Rider 发现:美国大学图书馆藏书每16年倍增

• 1961 DerekPrice 推进Rider的发现

大数据时代

基本概念

• 数据

• 数据可视化

• 数据分析

• 数据挖掘• Machine Learning

• 预测和建模

• “数据科学”

大数据

• Volume:大量

• Velocity:高速

• Variety: 多样

• Value: 价值

大数据分析

大数据分析

• 与传统数据分析的区别• 运算追逐数据

• 生成同步处理

• 全体取代抽样

• 当前难点• 数据处理——处理大量、高速、多样的数据

• 数据分析——现有算法的并行化

数据及数据分析相关职位

传统职位• 统计

• Business Intelligence

• 数据分析师(data analyst)

大数据相关职位• 算法研究(researcher)

• 数据科学家(data scientist)

• 数据工程师(data engineer)

• 数据保障(data quality)

大数据技术

• 分布式存储 + 并行计算

• 云计算

Hadoop

• HDFS + MapReduce

• Hadoop

Hadoop Alternatives & Related

• Storm

• Spark

• Mahout

• SAS on Hadoop

• Mahout

• SAS on Hadoop

NoSQL Database

• NOT ONLY SQL• MongoDB

• Redis

• Cassandra

• Hbase

• Run SQL on KeyValue Pair• Hive

• Pig

大数据的影响

• 定量分析

• 从必然到相关

• 信息安全

谢谢!ye.julia.li@gmail.com