Ubuntu下编译安装MenetDB

  #cd /app/setup/ 下载最新源码 #wget  http://dev.monetdb.org/downloads/sources/Latest/MonetDB-11.13.7.zip # unzip MonetDB* 安装java,具体参见jdk安装配置。 安装ant #apt-get install ant 编译安装MonetDB,最主要是解决”OpenSSL library not found”等系列lib问题 #apt-get install  libxml2  libxml2-dev   libssl-dev  libcurl4-openssl-dev  libpcre3-dev  unixodbc-dev #apt-get install build-essential   #准备gnumake #./configure ... More

[转]大数据下的数据分析平台架构

随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代,数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB,对这些海量数据的分析已经成为一个非常重要且紧迫的需求。 作为一家互联网数据分析公司,我们在海量数据的分析领域那真是被“逼上梁山”。多年来在严苛的业务需求和数据压力下,我们几乎尝试了所有可能的大数据分析方法,最终落地于Hadoop平台之上。 Hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势,事实上已成为当前互联网企业主流的大数据分析平台。本文主要介绍一种基于Hadoop平台的多维分析和数据挖掘平台架构。 大数据分析的分类 Hadoop平台对业务的针对性较强,为了让你明确它是否符合你的业务,现粗略地从几个角度将大数据分析的业务需求分类,针对不同的具体需求,应采用不同的数据分析架构。 按照数据分析的实时性,分为实时数据分析和离线数据分析两种。 实时数据分析一般用于金融、移动和互联网B2C等产品,往往要求在数秒内返回上亿行数据的分析,从而达到不影响用户体验的目的。要满足这样的需求,可以采用精心设计的传统关系型数据库组成并行处理集群,或者采用一些内存计算平台,或者采用HDD的架构,这些无疑都需要比较高的软硬件成本。目前比较新的海量数据实时分析工具有EMC的Greenplum、SAP的HANA等。 对于大多数反馈时间要求不是那么严苛的应用,比如离线统计分析、机器学习、搜索引擎的反向索引计算、推荐引擎的计算等,应采用离线分析的方式,通过数据采集工具将日志数据导入专用的分析平台。但面对海量数据,传统的ETL工具往往彻底失效,主要原因是数据格式转换的开销太大,在性能上无法满足海量数据的采集需求。互联网企业的海量数据采集工具,有Facebook开源的Scribe、LinkedIn开源的Kafka、淘宝开源的 ... More

Centos通过ssh代理上网

特殊国情下,翻墙呼吸点新鲜空气是必须的,windows下通过Tunnerlier等设置,即可为浏览器和程序提供socks5代理。但linux下呢?典型的VMware下的linux环境下,,通过ssh设置即可。 # ssh -qTfnN -D  7070 用户名@远程ssh主机名 上面的7070是本地未被占用的端口,可以自己选择。其它参数的意思是: -q :- be very quite, we are acting only as a tunnel. -T :- Do not allocate a pseudo tty, we are only acting a ... More

数据库路线图

近几年来数据库的发展可以说是日新月异,而人们对结构化、非结构化、SQL、NoSQL以及NewSQL的理解也是远甚于过往。Matthew Aslett —— 451 Research的研发总监,动用各个领域的知识终于完成了数据库路线图的更新。新版本数据库路线图从London Underground和The Real ... More

数据挖掘中易犯的几大错误

按照Elder博士的总结,这几大易犯错误包括:  缺乏数据(Lack Data)  太关注训练(Focus on Training)  只依赖一项技术(Rely on One Technique)  提错了问题(Ask the Wrong Question)  只靠数据来说话(Listen (only) to the Data)  使用了未来的信息(Accept Leaks from the Future)  抛弃了不该忽略的案例(Discount Pesky Cases)  轻信预测(Extrapolate)  试图回答所有问题(Answer Every Inquiry)  随便地进行抽样(Sample ... More

列存数据库评测之MonetDB和Gbase8a性能对比测试

  1       测试目的 对比MonetDB和Gbase8a引擎性能,为后续产品评估选型做准备。 2       测试环境 2.1   硬件环境 系统制造商:       Intel 系统型号:         S5000VSA 系统类型:         X86-based PC 处理器:           安装了 1 个处理器。 [01]: x64 Family 6 Model 15 Stepping 6 GenuineIntel ~1995 Mhz BIOS 版本:        Intel Corporation S5000.86B.10.00.0084.101720071530, 2007/10/17 2.2   ... More

浅析Hadoop数据仓库架构Hive特点

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。另外一个是Windows注册表文件。 想在互联网上便捷Hive 是一种建立在 Hadoop ... More

分布式数据仓库Hive之概述

Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer ... More