数据挖掘算法之朴素贝叶斯分类器 Naive Bayes

贝叶斯分类器 贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。目前研究较多的贝叶斯分类器主要有四种,分别是:Naive Bayes、TAN、BAN和GBN。 贝叶斯网络是一个带有概率注释的有向无环图,图中的每一个结点均表示一个随机变量,图中两结点 ... More

数据挖掘算法之 kNN: k-nearest neighbor classification

邻近算法 KNN算法的决策过程 k-Nearest Neighbor algorithm 右图中,绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?如果K=3,由于红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那个类,如果K=5,由于蓝色四方形比例为3/5,因此绿色圆被赋予蓝色四方形类。 K最近邻(k-Nearest ... More

CentOS下编译安装MonetDB

AE产品化的一个关键方案是找到GBase的替代品,当前待验证方案是用MonetDB,MonetDB的功能已经做了验证,sql规范和性能上均优于GBase, 见测试说明。但并发性能需要严格验证。 取最新版本MonetDB源码,开启optimize参数,基于CentOS6.3 64位版本。 #cd /app/setup/ 下载最新源码 #wget  http://dev.monetdb.org/downloads/sources/Latest/MonetDB-11.13.7.zip # unzip ... More

Xmanager远程桌面Centos6

安装gdm /> yum -y install gdm 修改x11启动项配置系统为图形模式,/>vim /etc/inittab,修改为id:5:initdefault />telinit 5 />vim /etc/gdm/custom.conf, 在[security]和[xdmcp]字段下分别添加如下内容。 关闭防火墙/> service iptables stop custom.conf: [security] AllowRemoteRoot=true [xdmcp] Port=177 Enable=1       jQuery(document).ready(function () { jQuery("a#share_link").click(function () ... More

CentOS6安装R语言

R语言是主要用于统计分析、绘图的语言和操作环境。官方网站:http://www.r-project.org/ Windows下面有直接的安装包,直接下载安装很方便,但是对于刚出的CentOS6.0上不能直接通过yum 安装R,需要自己编译。 下载页面:http://ftp.ctex.org/mirrors/CRAN/ 在编译R之前,需要通过yum安装以下几个程序: yum install gcc-gfortran 否则报”configure: error: No F77 compiler found”错误 yum install gcc ... More

Hive与并行数据仓库的体系结构比较

最近分析和比较了Hive和并行数据仓库的架构,本文记下一些体会。 Hive是架构在Hadoop MapReduce Framework之上的开源数据分析系统。 Hive具有如下特点: 1. 数据以HDFS文件的形式存储,从而可以很方便的使用外部文件 2. 元数据存储独立于数据存储之外,从而解耦合元数据和数据,同样的数据,不同的用户可以有不同的元数据 3. 查询计划被分解为多个MapReduce ... More

数据挖掘算法之AdaBoost

Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器 (强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权 ... More

数据挖掘算法之PageRank

PageRank是Google算法的重要内容。2001年9月被授予美国专利,专利人是Google创始人之一拉里·佩奇(Larry Page)。因此,PageRank里的page不是指网页,而是指佩奇,即这个等级方法是以佩奇来命名的。 Google的 PageRank根据网站的外部链接和内部链接的数量和质量俩衡量网站的价值。PageRank背后的概念是,每个到页面的链接都是对该页面的一次投票, ... More