【转】曾鸣分享互联网本质的演讲

大家要了解互联网,明白三个词就够了,一个是“互联网”,第二个词叫“云计算”,第三个词叫“大数据”,大家可能听这三个词都听厌了,但实际上互联网的本质就是这三个词。 ​ 其实英语的互联网是两个词,一个叫Internet,一个叫Web。Internet更偏指类似思科、华为这样的企业,他们建的互联网基础通讯。大家要理解互联网,第一个关键字是联,联接是整个世界的基础。   Internet1.0是PC有线互联网,通过电话、宽带上网。现在比较热的是Internet2.0,是无线互联网,3G,4G, ... More

数据挖掘中易犯的几大错误

按照Elder博士的总结,这几大易犯错误包括:  缺乏数据(Lack Data)  太关注训练(Focus on Training)  只依赖一项技术(Rely on One Technique)  提错了问题(Ask the Wrong Question)  只靠数据来说话(Listen (only) to the Data)  使用了未来的信息(Accept Leaks from the Future)  抛弃了不该忽略的案例(Discount Pesky Cases)  轻信预测(Extrapolate)  试图回答所有问题(Answer Every Inquiry)  随便地进行抽样(Sample ... More

列存数据库评测之MonetDB和Gbase8a性能对比测试

  1       测试目的 对比MonetDB和Gbase8a引擎性能,为后续产品评估选型做准备。 2       测试环境 2.1   硬件环境 系统制造商:       Intel 系统型号:         S5000VSA 系统类型:         X86-based PC 处理器:           安装了 1 个处理器。 [01]: x64 Family 6 Model 15 Stepping 6 GenuineIntel ~1995 Mhz BIOS 版本:        Intel Corporation S5000.86B.10.00.0084.101720071530, 2007/10/17 2.2   ... More

浅析Hadoop数据仓库架构Hive特点

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。另外一个是Windows注册表文件。 想在互联网上便捷Hive 是一种建立在 Hadoop ... More

分布式数据仓库Hive之概述

Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer ... More

数据挖掘算法之朴素贝叶斯分类器 Naive Bayes

贝叶斯分类器 贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。目前研究较多的贝叶斯分类器主要有四种,分别是:Naive Bayes、TAN、BAN和GBN。 贝叶斯网络是一个带有概率注释的有向无环图,图中的每一个结点均表示一个随机变量,图中两结点 ... More

数据挖掘算法之 kNN: k-nearest neighbor classification

邻近算法 KNN算法的决策过程 k-Nearest Neighbor algorithm 右图中,绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?如果K=3,由于红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那个类,如果K=5,由于蓝色四方形比例为3/5,因此绿色圆被赋予蓝色四方形类。 K最近邻(k-Nearest ... More

CentOS6安装R语言

R语言是主要用于统计分析、绘图的语言和操作环境。官方网站:http://www.r-project.org/ Windows下面有直接的安装包,直接下载安装很方便,但是对于刚出的CentOS6.0上不能直接通过yum 安装R,需要自己编译。 下载页面:http://ftp.ctex.org/mirrors/CRAN/ 在编译R之前,需要通过yum安装以下几个程序: yum install gcc-gfortran 否则报”configure: error: No F77 compiler found”错误 yum install gcc ... More

Hive与并行数据仓库的体系结构比较

最近分析和比较了Hive和并行数据仓库的架构,本文记下一些体会。 Hive是架构在Hadoop MapReduce Framework之上的开源数据分析系统。 Hive具有如下特点: 1. 数据以HDFS文件的形式存储,从而可以很方便的使用外部文件 2. 元数据存储独立于数据存储之外,从而解耦合元数据和数据,同样的数据,不同的用户可以有不同的元数据 3. 查询计划被分解为多个MapReduce ... More