永发信息网

怎么利用聚类分析得到中心点的模型建立

答案:2  悬赏:50  手机版
解决时间 2021-01-04 07:36
怎么利用聚类分析得到中心点的模型建立
最佳答案
要先建立判别函数Y=a1x1+a2x2+anxn,其中:Y为判别分数(判别值),x1x2xn为反映研究对象特征的变量,a1a2an为系数
全部回答
1、层次聚类算法 1.1聚合聚类 1.1.1相似度依据距离不同:single-link:最近距离、complete-link:最远距离、average-link:平均距离 1.1.2最具代表性算法 1)cure算法 特点:固定数目有代表性的点共同代表类 优点:识别形状复杂,大小不一的聚类,过滤孤立点 2)rock算法 特点:对cure算法的改进 优点:同上,并适用于类别属性的数据 3)chameleon算法 特点:利用了动态建模技术 1.2分解聚类 1.3优缺点 优点:适用于任意形状和任意属性的数据集;灵活控制不同层次的聚类粒度,强聚类能力 缺点:大大延长了算法的执行时间,不能回溯处理 2、分割聚类算法 2.1基于密度的聚类 2.1.1特点 将密度足够大的相邻区域连接,能有效处理异常数据,主要用于对空间数据的聚类 2.1.2典型算法 1)dbscan:不断生长足够高密度的区域 2)denclue:根据数据点在属性空间中的密度进行聚类,密度和网格与处理的结合 3)optics、dbclasd、curd:均针对数据在空间中呈现的不同密度分不对dbscan作了改进 2.2基于网格的聚类 2.2.1特点 利用属性空间的多维网格数据结构,将空间划分为有限数目的单元以构成网格结构; 1)优点:处理时间与数据对象的数目无关,与数据的输入顺序无关,可以处理任意类型的数据 2)缺点:处理时间与每维空间所划分的单元数相关,一定程度上降低了聚类的质量和准确性 2.2.2典型算法 1)sting:基于网格多分辨率,将空间划分为方形单元,对应不同分辨率 2)sting+:改进sting,用于处理动态进化的空间数据 3)clique:结合网格和密度聚类的思想,能处理大规模高维度数据 4)wavecluster:以信号处理思想为基础 2.3基于图论的聚类 2.3.1特点 转换为组合优化问题,并利用图论和相关启发式算法来解决,构造数据集的最小生成数,再逐步删除最长边 1)优点:不需要进行相似度的计算 2.3.2两个主要的应用形式 1)基于超图的划分 2)基于光谱的图划分 2.4基于平方误差的迭代重分配聚类 2.4.1思想 逐步对聚类结果进行优化、不断将目标数据集向各个聚类中心进行重新分配以获最优解 2.4.2具体算法 1)概率聚类算法 期望最大化、能够处理异构数据、能够处理具有复杂结构的记录、能够连续处理成批的数据、具有在线处理能力、产生的聚类结果易于解释 2)最近邻聚类算法——共享最近邻算法snn 特点:结合基于密度方法和rock思想,保留k最近邻简化相似矩阵和个数 不足:时间复杂度提高到了o(n^2) 3)k-medioids算法 特点:用类中的某个点来代表该聚类 优点:能处理任意类型的属性;对异常数据不敏感 4)k-means算法 1》特点:聚类中心用各类别中所有数据的平均值表示 2》原始k-means算法的缺陷:结果好坏依赖于对初始聚类中心的选择、容易陷入局部最优解、对k值的选择没有准则可依循、对异常数据较为敏感、只能处理数值属性的数据、聚类结构可能不平衡 3》k-means的变体 bradley和fayyad等:降低对中心的依赖,能适用于大规模数据集 dhillon等:调整迭代过程中重新计算中心方法,提高性能 zhang等:权值软分配调整迭代优化过程 sarafis:将遗传算法应用于目标函数构建中 berkh in等:应用扩展到了分布式聚类 还有:采用图论的划分思想,平衡聚类结果,将原始算法中的目标函数对应于一个各向同性的高斯混合模型 5)优缺点 优点:应用最为广泛;收敛速度快;能扩展以用于大规模的数据集 缺点:倾向于识别凸形分布、大小相近、密度相近的聚类;中心选择和噪声聚类对结果影响大 3、基于约束的聚类算法 3.1约束 对个体对象的约束、对聚类参数的约束;均来自相关领域的经验知识 3.2重要应用 对存在障碍数据的二维空间按数据进行聚类,如cod(clustering with obstructed distance):用两点之间的障碍距离取代了一般的欧式距离 3.3不足 通常只能处理特定应用领域中的特定需求 4、用于高维数据的聚类算法 4.1困难来源因素 1)无关属性的出现使数据失去了聚类的趋势 2)区分界限变得模糊 4.2解决方法 1)对原始数据降维 2)子空间聚类 cactus:对原始空间在二维平面上的投影 clique:结合基于密度和网格的聚类思想,借鉴apriori算法 3)联合聚类技术 特点:对数据点和属性同时进行聚类 文本:基于双向划分图及其最小分割的代数学方法 4.3不足:不可避免地带来了原始数据信息的损失和聚类准确性的降低
我要举报
如以上问答信息为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
大家都在看
---Wouldyoulikesomecoffeeortea?---________
什么时候去日本旅游好
单选题Youwere________meetatthebusstopt
大祥区邵阳西湖路医疗专家门诊怎么去啊,谁知
天津大学的占地面积在全国所有大学的面积排多
抛物线y2=8x的焦点到准线的距离是A.2B.4C.8D.
阳曲路七六零弄社区居委会地址在什么地方?想
第 Ⅱ 卷(非选择题,共35分)第一节:连词成
饮料食品可以加银杏叶不
求类似虐杀原形和声名狼藉的游戏,沙盒类角色
如图,在△ABC中,∠B=∠C,AD垂直平分EF.(
请根据下面的上联试着对出下联,选做一题【小
一个圆的圆心与这个圆的位置关系是A.在圆的外
汾西路八十七弄社区居委会地址在什么地方?想
对下面所选文段的理解,不正确的一项是A.“那
推荐资讯
单选题The English in the f
转移因子口服液哪个厂家的好?
梦见去医院检查身体
跪求ipad2出现itunes和数据线的标志解决方法
已知定义在R上的函数f(x),写出命题“若对
男生你们开房进房间第一件事情是先干嘛?
某市无工厂和矿山,该市和该市某住宅小区的空
这种叫做什么夹子?
焦急的罗曼史9集片尾曲叫什么名!
昨晚梦见我坐在飞机的尾部靠窗的位置上,飞机
已知⊙O1与⊙O2相交,它们的半径分别是4,7,
魅族外屏碎了多少钱。
正方形一边上任一点到这个正方形两条对角线的
阴历怎么看 ?