第六章数据聚类

填空题

1.聚类分析包括连续型，二值离散型，多值离散型和混合类型。（锅）（另）
2.连续型属性的数据样本之间的距离有欧氏距离，曼哈顿距离和明考斯基距离。（锅）（另）
3.划分聚类方法对数据集进行聚类时包含三个要点：选定某种距离作为数据样本间的相似性度量、选择评价聚类性能的准则函数和选择某个初始分类，之后用迭代的方法得到聚类结果，使得评价聚类的准则函数取得最优值。（锅）（另）
4.层次聚类方法包括凝聚型层次聚类和分解型层次聚类两种层次聚类方法。（锅）（另）

简答题

5.什么是聚类分析？聚类分析的应用领域有哪些？（guo）（另）

聚类分析是将物理的或者抽象的数据集合划分为多个类别的过程，聚类之后的每个类别中任意两个数据样本之间具有较高的相似度，而不同类别的数据样本之间具有较低的相似度。
聚类分析是数据挖掘应用的主要技术之一，它可以作为一个独立的工具来使用，将未知类标号的数据集划分为多个类别之后，观察每个类别中数据样本的特点，并且对某些特定的类别作进一步的分析。此外，聚类分析还可以作为其他数据挖掘技术（例如分类学习、关联规则挖掘等）的预处理工作。聚类分析在科学数据分析、商业、生物学、医疗诊断、文本挖掘、Web 数据挖掘等领域都有广泛应用。在科学数据分析中，比如对于卫星遥感照片，聚类可以将相似的区域归类，有助于研究人员根据具体情况做进一步分析；在商业领域，聚类可以帮助市场分析人员对客户的基本数据进行分析，发现购买模式不同的客户群，从而协助市场调整销售计划；在生物学方面，聚类可以帮助研究人员按照基因的相似度对动物和植物的种群进行划分，从而获得对种群中固有结构的认识；在医疗诊断中，聚类可以对细胞进行归类，有助于医疗人员发现异常细胞的聚类，从而对病人及时采取措施；在文本挖掘和 Web 数据挖掘领域中，聚类可以将网站数据按照读者的兴趣度进行划分，从而有助于网站内容的改进。

6.请描述 K-means 聚类算法的操作步骤。（guo）

![image1](/img/user/resources/attachments/image1-35 1.png)

聚类和分类有什么区别和联系？（另）

答：
区别：分类是指把数据样本映射到一个事先定义的类中的学习过程，即给定一组输入的属性向量及其对应的类，用基于归纳的学习算法得出分类。
聚类分析是将物理的或者抽象的数据集合划分为多个类别的过程，聚类之后的每个类别中任意两个数据样本之间具有较高的相似度，而不同类别的数据样本之间具有较低的相似度。
一个有监督、一个没监督
联系：都会将目标分为几个类别，可以先聚类再分类

TF-IDF 算法是什么.有什么实际意义？（另）

答：
TF-IDF 与一个词在文档中的出现次数成正比，与该词在整个语言中的出现次数成反比。所以，自动提取关键词的算法就很清楚了，就是计算出文档的每个词的 TF-IDF 值，然后按降序排列，取排在最前面的几个词。
TF-IDF 是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF 加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级
实际意义：寻找相似文章，自动摘要，适合用来分类

数据挖掘与统计的区别与联系?（另）

答：
区别：
统计学主要利用概率论建立数学模型，是研究随机现象的常用数学工具之一。数据挖掘分析大量数据，发现其中的内在联系和知识，并以模型或规则表达这些知识。
二者前提不同，统计学要求有数据分布模型的先验假设，数据挖掘没有上述要求
联系：
二者目标类似，希望从数据中发现令人感兴趣的信息。
二者相互促进，数据挖掘可以作为统计分析的一部分，统计方法可以用于数据挖掘。