借助均移确定聚类中心

均移:指偏移的均值向量,是一种非参数技术

主要思想:首先随机选择一个初始的感兴趣区域(初始窗)并确定其重心,接下来,搜索周围点密度更大的感兴趣区域并确定其重心 重复上面的过程不断将均值移动直到收敛。

均移方法中,需要确定多变量密度核估计器。

其中,核函数的作用是是的随着特征点与均值的距离不同,对均值的便宜贡献也不同。

具体例子以及引用公式见《图像工程 (中)》p68-70

优点:对数据的全局表达有关,有通用性,对噪声有鲁棒性,可以用于各种实际场合。

来自为知笔记(Wiz)

借助均移确定聚类中心,布布扣,bubuko.com

时间: 12-14

借助均移确定聚类中心的相关文章

Kmeans算法的K值和聚类中心的确定

0 K-means算法简介 K-means是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一. K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类.通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果. 算法过程如下: 1)从N个文档随机选取K个文档作为质心 2)对剩余的每个文档测量其到每个质心的距离,并把它归到最近的质心的类 3)重新计算已经得到的各个类的质心 4)迭代2-3步直至新的质心与原质心相等或小于指定阈值,算法结束 参考Java代码

一种新型聚类算法(Clustering by fast search and find of density peaksd)

最近在学习论文的时候发现了在science上发表的关于新型的基于密度的聚类算法 Kmean算法有很多不足的地方,比如k值的确定,初始结点选择,而且还不能检测费球面类别的数据分布,对于第二个问题,提出了Kmean++,而其他不足还没有解决,dbscan虽然可以对任意形状分布的进行聚类,但是必须指定一个密度阈值,从而去除低于此密度阈值的噪音点,这篇文章解决了这些不足. 本文提出的聚类算法的核心思想在于,对聚类中心的刻画上,而且认为聚类中心同时具有以下两种特点: 本身的密度大,即它被密度均不超过它的邻

推荐引擎算法学习导论:协同过滤、聚类、分类

作者:July.出处:结构之法算法之道 本文转自互联网,仅供学习收藏只用,如有侵权,请联系本人删除. 引言 昨日看到几个关键词:语义分析,协同过滤,智能推荐,想着想着便兴奋了.于是昨天下午开始到今天凌晨3点,便研究了一下推荐引擎,做了初步了解.日后,自会慢慢深入仔细研究(日后的工作亦与此相关).当然,此文也会慢慢补充完善. 本文作为对推荐引擎的初步介绍的一篇导论性的文章,将略去大部分的具体细节,侧重用最简单的语言简要介绍推荐引擎的工作原理以及其相关算法思想,且为了着重浅显易懂有些援引自本人1月7

【转载】各种聚类算法的比较

聚类的目标是使同一类对象的相似度尽可能地大:不同类对象之间的相似度尽可能地小.目前聚类的方法很多,根据基本思想的不同,大致可以将聚类算法分为五大类:层次聚类算法.分割聚类算法.基于约束的聚类算法.机器学习中的聚类算法和用于高维度的聚类算法.摘自 数据挖掘中的聚类分析研究综述 这篇论文. 1.层次聚类算法 1.1聚合聚类 1.1.1相似度依据距离不同:Single-Link:最近距离.Complete-Link:最远距离.Average-Link:平均距离 1.1.2最具代表性算法 1)CURE算

文本挖掘之文本聚类(MapReduce)

刘 勇  Email:[email protected] 简介 针对大数量的文本数据,采用单线程处理时,一方面消耗较长处理时间,另一方面对大量数据的I/O操作也会消耗较长处理时间,同时对内存空间的消耗也是很大,因此,本文引入MapReduce计算模型,以分布式方式处理文本数据,以期提高数据处理速率.本文结合Kmeans和DBSCAN算法,对上述算法进行改进,其中借鉴Kmeans聚类方法(类别个数的确定性)以及DBSCAN聚类方法(基于密度),并在数据处理过程中引入多个Reducer对数据进行归并

猪猪的机器学习笔记(八)聚类

聚类 作者:樱花猪   摘要: 本文为七月算法(julyedu.com)12月机器学习第八次次课在线笔记.聚类算法是一种常见的无监督的学习方法,概念简单在图像.机器学习中都有应用.目前有许多聚类方法,本次课程将一一探讨各种各样的聚类算法. 引言: 聚类算法在很早就接触过,简单的说就是通过对于某些相关性的测量来将样本分成不同的类别,聚类算法除了在机器学习中有所应用在图像分割时也是一种非常好的思路.本次课程从我们熟悉的K-means聚类开始讲起,介绍了层次聚类.密度聚类.谱聚类等方法.文章的最后还介

发表在 Science 上的一种新聚类算法

今年 6 月份,Alex Rodriguez 和 Alessandro Laio 在 Science 上发表了一篇名为<Clustering by fast search and find of density peaks>的文章,为聚类算法的设计提供了一种新的思路.虽然文章出来后遭到了众多读者的质疑,但整体而言,新聚类算法的基本思想很新颖,且简单明快,值得学习.这个新聚类算法的核心思想在于对聚类中心的刻画上,本文将对该算法的原理进行详细介绍,并对其中的若干细节展开讨论. 最后,附上作者在补充

模式识别:k-均值聚类的研究与实现

本实验的目的是学习和掌握k-均值聚类算法.k-均值算法是一种经典的无监督聚类和学习算法,它属于迭代优化算法的范畴.本实验在MATLAB平台上,编程实现了k-均值聚类算法,并使用20组三维数据进行测试,比较分类结果.实验中初始聚类中心由人为设定,以便于实验结果的比较与分析. 一.技术论述 1.无监督学习和聚类 在之前设计分类器的时候,通常需要事先对训练样本集的样本进行标定以确定类别归属.这种利用有标记样本集的方法称为"有监督"或"有教师"方法.这一类方法的使用固然十分

聚类--汇总

聚类--简介 主要包括如下几方面的内容:常见聚类方法简介: 聚类的方法有如下几种:基于层次的聚类:基于网格的聚类:基于密度的聚类:基于图论的聚类:基于距离的聚类:灰色聚类:模糊等价关系聚类:基于关键词搜索的网页聚类 1.层次聚类算法 1.1聚合聚类 1.1.1相似度依据距离不同:Single-Link:最近距离.Complete-Link:最远距离.Average-Link:平均距离 1.1.2最具代表性算法 1)CURE算法 特点:固定数目有代表性的点共同代表类 优点:识别形状复杂,大小不一的