Concept
Classification & Clustering
supervised learning vs unsupervised learning
分类是数据挖掘中的最重要的技术之一。目前实现分类的方法有统计方法、机器学习方法和人工智能方法等,常用的技术有决策树分类、贝叶斯分类、神经网络分类等.通过对当前具有代表性的分类算法原理进行分析、比较,总结出每种算法的性能特征,既便于使用者了解掌握各种分类算法、更好地选择合适的算法,又便于研究者对算法进行研究改进,提出性能更好的分类算法。
聚类方法可以分为:
1) 划分的方法:构造不同的划分,然后用某些方法评估划分情况。
2) 层次的方法:基于某些标准对给定数据对象集合进行层次分解。
3) 基于密度的方法:基于临近区域的密度进行聚类。
4) 基于网格的方法:把对象空间量化为有限数目的单元,形成网格结构进行聚类操作。
5) 基于模型的方法:为每个簇假定一个模型,寻找数据对给定模型的最佳拟合。
classification vs prediction
预测的常用方法是时间序列,回归也可以用来预测。
时间序列常用的方法有:ARMA,指数平滑和趋势外推等。时间序列的最大特点就是充分挖掘事物本身随时间的规律。因为,任何事物,比如企业销售额,在没有特别的外在因素影响下,总是有规可循的。
数据库与数据仓库的主要区别是:
1、数据存储量不同,一般来说数据库相对数据仓库而言数据存储量要小;
2、建模方式与建模方法不同,一般来说传统数据库建模使用实体关系即E_R而数据仓库则一般采用维度与指标即DF方法;
3、应用方式不同,一般来说数据库一般面向联机业务处理即OLTP(online transaction processing),而数据仓库则主要面向联机分析处理即OLAP(Online Analytical Processing)
常用数据中心趋势以及数据离散的度量有哪些?
平均值(mean):是最常用最有效的中心数值度量。包括平均值和加权平均值。
中位数(median):一个整体度量,不是分布度量,也不是代数度量。
模(mode):是集合中出现最多的值。
中列数(midrange):是数列集合的最大值和最小值的平均值。
四分位数(quantile):Q1 (25th percentile), Q3 (75th percentile)
孤立点(outlier): 落在至少高于Q3或者低于Q1的1.5×IQR处的值
五数概括(five-number summary): min,Q1, M, Q3, max ——M为中位数/中值
盒图(variance):端点在四分位数上;盒的长度是IQR;中位数标记为盒内的线;盒外的两条线延伸到最小和最大的观测值
没有评论:
发表评论