开云·kaiyun体育(中国)官方网站-登录入口

数据挖掘的c4.5算法（数据挖掘4v）

1、Apriori算法是一个最有影响力的挖掘布尔关联规则频繁项集算法，其核心是一组递归算法思想的基础上两个阶段的频率。关联规则被归类为一维的，单一的，布尔关联规则。

2、首先，让我们回到基础。当面对大量数据集，比如200，000个样本，类别均匀分布，ID3和C5在选择特征时，确实会考虑信息增益。然而，这并不意味着信息增益总是偏向取值多的特征。举个例子，如果有两个特征，A有10，000个取值，B只有2个，尽管它们都与类别无关，但ID3最初可能不会明显偏向A。

3、The Apriori algorithm Apriori算法，它是一种最具影响力的挖掘布尔关联规则频繁项集的算法。它的算法核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。

数据挖掘的c4.5算法（数据挖掘4v）

1、C5是对ID3的精进，它引入了信息增益率的概念，旨在解决连续特征的处理问题。C5综合了信息增益和增益率，从而提高了模型的稳健性和预测精度，但仍需警惕过拟合的潜在风险。CART，由Breiman提出，是一种全能选手，适用于分类和回归任务。

2、为了解决这个问题，C5算法引入了信息增益率，它是信息增益除以属性的固有信息量，从而平衡了属性的多样性和分类的准确性。C5的选择标准更为严苛，它挑选出那些信息增益超过平均值，且信息增益率最高的候选属性，这样的策略更倾向于选择那些能产生更少类别分歧的特征。

3、增益率，是信息增益的改进版本，它考虑了属性选择时可能带来的信息增益，避免了对具有较少取值的属性过分偏爱。C5算法巧妙地结合了信息增益和启发式策略，使得决策树更为稳健，不易过度拟合。基尼指数，作为一种纯度度量，它衡量了样本在某个特征值下的不均匀性，高的基尼指数表示分类问题的纯度较低。

1、k-means algorithm算法是一个聚类算法，把n的对象根据他们的属性分为k个分割，k n。它与处理混合正态分布的最大期望算法很相似，因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量，并且目标是使各个群组内部的均方误差总和最小。

2、最近邻算法KNN KNN即最近邻算法，其主要过程为：计算训练样本和测试样本中每个样本点的距离（常见的距离度量有欧式距离，马氏距离等）；对上面所有的距离值进行排序；选前k个最小距离的样本；根据这k个样本的标签进行投票，得到最后的分类类别；如何选择一个最佳的K值，这取决于数据。

3、神经网络法是模拟生物神经系统的结构和功能，是一种通过训练来学习的非线性预测模型，它将每一个连接看作一个处理单元，试图模拟人脑神经元的功能，可完成分类、聚类、特征挖掘等多种数据挖掘任务。神经网络的学习方法主要表现在权值的修改上。

4、聚类的方法（算法）：主要的聚类算法可以划分为如下几类，划分方法、层次方法、基于密度的方法、基于网格的方法、基于模型的方法。每一类中都存在着得到广泛应用的算法，划分方法中有 k-means 聚类算法、层次方法中有凝聚型层次聚类算法、基于模型方法中有神经网络聚类算法。