数据挖掘技术_数据挖掘主要解决哪些问题?

作者: 永洪BI  来源: 永洪科技  时间:2020年12月17日

 
我们上一篇讲到数据预处理直接会影响数据分析结果的准确性,数据预处理也是开始数据挖掘工作的重要一步,那么数据挖掘到底能帮助我们解决哪些更深层的数据分析工作呢,下面我们就做简单介绍。
 
数据挖掘,数据分析
 
数据挖掘最重要的要素是分析人员的相关业务知识和思维模式。一般来说,数据挖掘主要侧重解决四类问题:分类、聚类、关联、预测。数据挖掘非常清晰的界定了它所能解决的几类问题。
 
一、 分类问题
通过预测模型及对变量的分析,找出其与目标变量的相关特征,并筛选出两者间的联系。大前提是通过对历史数据的收集,明确了具体的分类项目、用户的分类结果。
 
分类技术在很多领域都有应用,市场营销中十分注重对客户的细分,针对客户的特点,将他们分为不同的类别。这样不仅可以找出不同类型客户的特征,同样可以进一步了解不同行为类别客户的分布特征。
下面这些问题可以用分类和回归技术来解决:
如何将信用卡申请人分为低、中、高风险群?
如何预测银行可以安全地贷给贷款人的贷款量?
如何有效预测房地产开发中存在的风险?
如何预测哪些顾客在未来半年内会取消该公司服务,哪些电话用户会申请增值服务?
如何预测具有某些特征的顾客是否会购买一台新的计算机?
使用3G通信网络的手机用户哪些有可能转换到 4G通信网络?
如何预测一位顾客在一次销售期间将花多少钱?
如何预测病人应当接受三种具体治疗方案的哪一种?
 
二、聚类问题
顾名思义,聚类即“物以类聚”,按照不同的对象,划分若干不同的问题。聚类问题的核心是其划分的依据,经过处理后的同一类对象相似度较高,不同的对象则具有较低的相似度。
 
分类问题与聚类问题是有本质区别的:分类问题是预测一个未知类别的用户属于哪个类别,而聚类问题是根据选定的指标,对一群用户进行划分,它不属于预测问题。
 
聚类问题在商业案例中也是一个非常常见的,例如需要选择若干个指标(如价值、成本、使用的产品等)对已有的用户群进行划分:特征相似的用户聚为一类,特征不同的用户分属于不同的类。
 
三、关联问题
关联分析是在各类数据挖掘算法中比较重要的一种,关联规则与聚类算法一样,属于无监督学习方法。它在许多实际业务中都有应用,最广泛的应用便是在超市中, 重点是研究用户同一次购买的产品间的相关性,若购买的产品时间不同,则可以分析出时间先后上的关联性,“啤酒与尿布”是其中一个著名的案例。
 
四、预测问题
预测问题的解决更多的是采用统计学的技术,例如回归分析和时间序列分析。它的主要目的是研究目标变量与影响它的若干相关变量之间的关系。
数据挖掘中的预测问题通过对历史数据的统计和学习得到预测模型(通过机器学习建立),再利用此模型对未来的输入输出值进行预测。预测问题多采用统计学技术解决,如回归分析和时间序列分析等。回归分析的主要目的是用来研究目标变量和影响它的相关变量间的关系,用于解决预测问题的回归分析和关联分析不同,它较少应用于商业中,更多地应用于自然科学、医学、心理学等。
 
 
版权声明

 

永洪BI
更敏捷、更快速、更强大

申请试用
Copyright © 2012-2023开发者:北京永洪商智科技有限公司版本:V10.0
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限