ETHINK 数据挖掘产品皮书 · 费的 5 到 10...
Transcript of ETHINK 数据挖掘产品皮书 · 费的 5 到 10...
ETHINK 数据挖掘产品白皮书
一、概述
ETHINK 数据挖掘是分布式架构下的数据挖掘产品,通过拖拽式流程设计,可以快速
实现各类数据挖掘的应用。目前已经包含数据挖掘几十种,是业界算法最丰富的挖掘
产品之一。系统简单易用,一般数据分析人员能够借助挖掘平台,实现行业以及企业
深度数据分析。
数据挖掘与机器学习工具构建于分布式内存计算的基础之上,汇集了大量优质分布式
算法,包括数据处理、特征工程、机器学习算法、文本算法等,可高效的完成海量、
亿级维度数据的复杂计算,给业务带来更为精准的洞察力;同时,该工具提供了一套
极易操作的可视化编辑页面,大大降低了数据挖掘的门槛,提高建模效率,最终帮您
快速得到大数据背后隐藏的秘密。
二、功能概述
挖掘:数据连接支持各类关系数据库,EXCEL,支持 HDFS,支持 HIVE,HBASE 等各
类数据源:数据清洗与处理:支持相关性分析,全连接,过滤,数据离散,数据抽样,
值转换,值替换,数据降维等操作。
支持线性回归、关联模型、ALS 模型、kmeans 模型、决策树、随机森林、SVM 模型
等 20 类丰富算法模型。
支持模型的评估与发布。支持任务调度,离线计算。
分析报告:支持各类可视化报告,支持数据导出到可视化平台。
任务管理:支持离线挖掘与实时发掘。
挖掘平台计算架构:分布式内存计算架构,支持海量数据的挖掘与分析。
1.数据挖掘平台界面
ETHINK 数据挖掘平台平台界面如下图所示:
2.平台操作功能展示
侧边栏组件:展示了数据挖掘算法组件以及算法等核心功能。
画布区: 用户可以用鼠标将相应的组件拖拽到画布上,形成一个有向的建模流程,完
成从数据输入到数据输出处理等一系列的数据挖掘工作。
属性区:该区域可以设置组件内参数配置的信息。
3.平台界面主要功能
搜索功能:当有很多数据、表、文件时,可以通过搜索功能快速查找所需的资料。
模型文件:通过勾选模型文件,可以在平台上进行模型的重命名、移动、删除、导出
等操作,单机进入可以编辑之前没有完成的流程建模。
表数据:类似于文件管理器,可以查看所有的数据表。
文件列表:通过该功能,用户可以管理所有的文件以及模型。
4.数据挖掘组件
提供整套的数据挖掘组件,包括数据的预处理、特征抽取、模型训练、预测和评估。
将数据导入平台后,可通过拖拽的方式,借助组件灵活地建立模型流程来解决自身的
业务场景。
5.可视化建模
操作界面通过拖拽组件,进行可视化建模。从左边的组件框中拖拉组件到右边的画布
中可搭建模型流程。
6.数据可视化展示
通过模型输出数据到数据库,在平台进行数据可视化展示。在操作界面通过拖拽图形
选择数据进行配置。
7.算法组件
数据挖掘包含数据预处理、数据清洗、经典算法、挖掘报告、统计分析、特征工程、
统计分析、这一整套数据挖掘算法组件,共 100 余种。
经典算法
自动模型 自动分类模型、自动数值模型
分类模型 自动分类模型、逻辑回归模型、SVM 模型、朴素贝叶斯模型、决策
树模型、神经网络模型、随机森林、梯度提升树模型
回归模型 自动数值模型、决策树模型、线性回归模型、岭回归模型、Lasso
模型、随机森林、梯度提升树模型
聚类模型 K-Means 模型、高斯混合模型、Bisecting K-Means 模型
推荐模型 ALS 模型
关联规则 关联规则模型
智能算法 深度学习 神经网络模型、深度学习模型、随机森林(DRF)、梯度提升树
(GBM)、广义线性模型(GLM)
自有算法
自组织数据挖掘,随机森林,随机决策树,一次迭代 LR、k-均值聚
类、Backpropagation, AutoEncoder, RBM, Convolution、自组
织数据挖掘、Commonalities,GLM,DRF,Deep Features,
Feed-Forward Neural Network,特征权重算法
三、功能特性
1.数据挖掘
数据连接支持各类关系数据库,EXCEL,支持 HDFS,支持 HIVE,HBASE 等各类数据
源
2.数据清洗与处理
支持相关性分析,全连接,过滤,数据离散,数据抽样,值转换,值替换,数据降维
等操作。
支持线性回归、关联模型、ALS 模型、kmeans 模型、决策树、随机森林、SVM 模型
等 20 类丰富算法模型。
支持模型的评估与发布。支持任务调度,离线计算。
3.分析报告
支持各类可视化报告,支持数据导出到可视化平台。
4.任务管理
支持离线挖掘与实时发掘。
5.挖掘平台计算架构
分布式内存计算架构,支持海量数据的挖掘与分析。
四、产品优势
1.原生大数据分布式计算
提供丰富的分布式算法,提高模型精度,帮助客户从海量数据中挖掘出业务价值。业
界已有的是传统单机产品,基于 CS 模式的工具模式。传统挖掘产品比如成 EXCEL 这
样一个挖掘工具, ETHINK 是一个 WINDOWS 系统,上面自带了 OFFICE 系列。
2.支持自定义算法和组件
提供从数据预处理到模型评估的一站式平台服务,显著降低大数据算法建模的门槛。
是业界算法模型最丰富的产品。目前涵盖了从经典数据挖掘,到统计,到非结构化挖
掘等一系列的算法。支持自定义算法和组件,灵活开放的个性化设置,极大地提高了
用户建模效率。
3.丰富的通用模型
建立几百个案例库与丰富的通用模型,基本覆盖行业与企业应用需求。操作简单易用,
一般用户 30 分钟就会实现机器学习与挖掘模型。WEB 界面,通过拖、拉、拽等方式
即可完成复杂数据挖掘流程。
4.多种数据处理
支持相关性分析,全连接,过滤,数据离散,数据抽样,值转换,值替换,数据降维
等操作。
5.简单易用拖拽设计
WEB 界面,通过拖、拉、拽等方式即可完成复杂数据挖掘流程。
6.一站式平台服务
提供从数据预处理到模型评估的一站式平台服务,显著降低大数据算法建模的门槛。
7.大数据分布式计算
提供丰富的分布式算法,提高模型精度,帮助客户从海量数据中挖掘出业务价值。
8.分析报告
支持各类可视化报告,支持数据导出到可视化平台。
五、产品优势对比
六、应用场景
开发者将实际业务抽象成结构化数据,利用机器学习算法处理分类、聚类、预测、推
荐等应用场景的业务。
企业级用户需要具备以下能力:
* 具备基础的数据加工能力,能大致理解自主结构化数据的能力,根据自己的业务场
景将数据量化。
* 具备基础机器学习算法能力,知道算法与业务场景的适应关系,可以根据我们提供
的在线演示与算法教程来学习。
* 可以根据 ETHINK 在线已经有的 50 多个经典场景模板或案例来参考创建。(也可联
系我们进行定制化服务、包括算法定制、建模服务等)
七、案例场景
1.关联分析
关联规则与聚类算法一样,属于无监督学习方法。它在许多实际业务中都有应用,最
广泛的应用便是在超市中,因此也叫作“购物篮分析(Market Basket Analysis)”
对商场销售数据进行分析, 从而得到顾客的购买特性,并根据发现的规律而采取有效
的行动。
通过典型的购物篮分析,将顾客和商品关联起来,通过这种关联有效管理商品的摆放
及顾客的喜好,做到销售利润最大化并将顾客感兴趣的商品即使推送给顾客。
2.预测分析
通过对历史数据的统计和学习得到预测模型(通过机器学习建立),再利用此模型对未
来的输入输出值进行预测。预测问题多采用统计学技术解决,如回归分析和时间序列
分析等。回归分析的主要目的是用来研究目标变量和影响它的相关变量间的关系。
做好电力负荷预测管理工作可以有效降低电网公司运行成本和提高电力设备运行效率,
其预测精度不仅影响到电网安全可靠供电,而且直接影响到电网经营企业的生产经营
决策及经营效益。
通过时序预测,提前判定电实时负荷趋势,及时调整用电配置,减少电量的浪费,扩
大电网公司效益。
3.推荐分析
当今的商业竞争日趋激烈,获得一个新客户的成本越来越高,保持原有顾客也就显得
越来越重要。营销实践表明:争取一个新客户的花费常常可以达到留住一个老客户花
费的 5 到 10 倍。客户忠诚是客户在较长的一段时间内,对于企业产品或服务保持的
选择偏好与重复性购买。忠诚的客户不仅会增加购买量,而且往往会为企业介绍新客
户。与传统的商务相比较,电子商务的客户忠诚度更重要。
本案例通过对用户评分行为的分析,挖掘用户的兴趣及其变化规律,然后预测用户对
其他电影的评分。及时将用户的喜好推荐给他,减少用户的流失,增加其忠诚度。
4.异常分析
信用风险往往和损失联系在一起,或者说,信用风险可以导致损失。第一,对于信用
活动的一个事件来说,既存在损失的可能性,也存在盈利的可能性。第二,信用风险
指的是一种可能性,是一种结果未知的未来事件。因此通过风险评估可以减少银行的
损失。
5.分类问题
首先对收集到的变量进行分析,找出其与目标变量的相关特征,并筛选出两者间的联
系。大前提是通过对历史数据的收集,明确了具体的分类项目、用户的分类结果。
在信用活动中,不确定性包括外在不确定性和内在不确定性两种。外在不确定性来自
于经济实体以外,是经济运行过程中随机性、偶然性的变化或不可预测的趋势。内在
不确定性来源于经济体系之内,它是由行为人主观决策及获取信息的不充分性等原因
造成的,带有明显的个人特征。
根据申请人的特征属性,得到其申请是否存在风险,其中Ⅰ类表示风险不大,Ⅱ类表
示风险大。
6.聚类问题
按照不同的对象,划分若干不同的问题。聚类问题的核心是其划分的依据,经过处理
后的同一类对象相似度较高,不同的对象则具有较低的相似度。
聚类的方法各种各样,常常用距离、密度来度量不同对象的相似度。目前,最流行的
聚类划分方法是基于用户间的距离长短来划分。
通过展示分析,我们可以把用户分为四大类,其中 3 为重要挽留客户;0 为重要发展
客户;2 为重要保持客户;1 为一般客户。
八、合作案例