• 售前

  • 售后

热门帖子
入门百科

python聚类算法选择方法实例

[复制链接]
丁侦球 显示全部楼层 发表于 2021-8-14 08:46:55 |阅读模式 打印 上一主题 下一主题
分析

1、如果数据集是高维度的,选择谱聚类是子空间的一种。
2、如果数据量是中小型的,比如在100W条以内,K均值会是更好的选择;如果数据量高出100W条,可以考虑利用MiniBatchKMeans。
3、如果数据集中有噪声(离群点),利用基于密度的DBSCAN可以有效解决这个问题。
4、若追求更高的分类精确性,则选择谱聚类比K均值精确性更好。
实例
  1. import numpy as np
  2. import matplotlib.pyplot as plt
  3. # 数据准备
  4. raw_data = np.loadtxt('./pythonlearn/cluster.txt') # 导入数据文件
  5. X = raw_data[:, :-1] # 分割要聚类的数据
  6. y_true = raw_data[:, -1]
  7. print(X)
复制代码
知识点扩充:
聚类算法

有很多范例的聚类算法。很多算法在特性空间中的示例之间利用相似度或距离度量,以发现密集的观测地域。因此,在利用聚类算法之前,扩展数据通常是良好的实践。
聚类分析的全部目的的焦点是被群集的各个对象之间的相似程度(或不同程度)的概念。聚类方法尝试根据提供给对象的相似性界说对对象举行分组。
一些聚类算法要求您指定或推测数据中要发现的群集的数量,而另一些算法要求指定观测之间的最小距离,此中示例可以被视为“关闭”或“连接”。因此,聚类分析是一个迭代过程,在该过程中,对所辨认的群集的主观评估被反馈回算法设置的改变中,直到达到盼望的或恰当的效果。scikit-learn 库提供了一套不同的聚类算法供选择。下面列出了10种比力盛行的算法:
       
  • 亲和力传播   
  • 聚合聚类   
  • BIRCH   
  • DBSCAN   
  • K-均值   
  • Mini-Batch K-均值   
  • Mean Shift   
  • OPTICS   
  • 光谱聚类   
  • 高斯肴杂
每个算法都提供了一种不同的方法来应对数据中发现天然组的寻衅。没有最好的聚类算法,也没有简单的方法来找到最好的算法为您的数据没有利用控制实行。在本教程中,我们将回首怎样利用来自 scikit-learn 库的这10个盛行的聚类算法中的每一个。这些示例将为您复制粘贴示例并在自己的数据上测试方法提供基础。我们不会深入研究算法怎样工作的理论,也不会直接比力它们。让我们深入研究一下。
到此这篇关于python聚类算法选择方法实例的文章就介绍到这了,更多相关python聚类算法怎样选择内容请搜索脚本之家从前的文章或继续欣赏下面的相关文章盼望大家以后多多支持脚本之家!

帖子地址: 

回复

使用道具 举报

分享
推广
火星云矿 | 预约S19Pro,享500抵1000!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

草根技术分享(草根吧)是全球知名中文IT技术交流平台,创建于2021年,包含原创博客、精品问答、职业培训、技术社区、资源下载等产品服务,提供原创、优质、完整内容的专业IT技术开发社区。
  • 官方手机版

  • 微信公众号

  • 商务合作