[转]大数据下的数据分析平台架构

随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代,数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB,对这些海量数据的分析已经成为一个非常重要且紧迫的需求。 作为一家互联网数据分析公司,我们在海量数据的分析领域那真是被“逼上梁山”。多年来在严苛的业务需求和数据压力下,我们几乎尝试了所有可能的大数据分析方法,最终落地于Hadoop平台之上。 Hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势,事实上已成为当前互联网企业主流的大数据分析平台。本文主要介绍一种基于Hadoop平台的多维分析和数据挖掘平台架构。 大数据分析的分类 Hadoop平台对业务的针对性较强,为了让你明确它是否符合你的业务,现粗略地从几个角度将大数据分析的业务需求分类,针对不同的具体需求,应采用不同的数据分析架构。 按照数据分析的实时性,分为实时数据分析和离线数据分析两种。 实时数据分析一般用于金融、移动和互联网B2C等产品,往往要求在数秒内返回上亿行数据的分析,从而达到不影响用户体验的目的。要满足这样的需求,可以采用精心设计的传统关系型数据库组成并行处理集群,或者采用一些内存计算平台,或者采用HDD的架构,这些无疑都需要比较高的软硬件成本。目前比较新的海量数据实时分析工具有EMC的Greenplum、SAP的HANA等。 对于大多数反馈时间要求不是那么严苛的应用,比如离线统计分析、机器学习、搜索引擎的反向索引计算、推荐引擎的计算等,应采用离线分析的方式,通过数据采集工具将日志数据导入专用的分析平台。但面对海量数据,传统的ETL工具往往彻底失效,主要原因是数据格式转换的开销太大,在性能上无法满足海量数据的采集需求。互联网企业的海量数据采集工具,有Facebook开源的Scribe、LinkedIn开源的Kafka、淘宝开源的 ... More

Centos通过ssh代理上网

特殊国情下,翻墙呼吸点新鲜空气是必须的,windows下通过Tunnerlier等设置,即可为浏览器和程序提供socks5代理。但linux下呢?典型的VMware下的linux环境下,,通过ssh设置即可。 # ssh -qTfnN -D  7070 用户名@远程ssh主机名 上面的7070是本地未被占用的端口,可以自己选择。其它参数的意思是: -q :- be very quite, we are acting only as a tunnel. -T :- Do not allocate a pseudo tty, we are only acting a ... More

数据库路线图

近几年来数据库的发展可以说是日新月异,而人们对结构化、非结构化、SQL、NoSQL以及NewSQL的理解也是远甚于过往。Matthew Aslett —— 451 Research的研发总监,动用各个领域的知识终于完成了数据库路线图的更新。新版本数据库路线图从London Underground和The Real ... More

CentOS下编译安装MonetDB

AE产品化的一个关键方案是找到GBase的替代品,当前待验证方案是用MonetDB,MonetDB的功能已经做了验证,sql规范和性能上均优于GBase, 见测试说明。但并发性能需要严格验证。 取最新版本MonetDB源码,开启optimize参数,基于CentOS6.3 64位版本。 #cd /app/setup/ 下载最新源码 #wget  http://dev.monetdb.org/downloads/sources/Latest/MonetDB-11.13.7.zip # unzip ... More

Xmanager远程桌面Centos6

安装gdm /> yum -y install gdm 修改x11启动项配置系统为图形模式,/>vim /etc/inittab,修改为id:5:initdefault />telinit 5 />vim /etc/gdm/custom.conf, 在[security]和[xdmcp]字段下分别添加如下内容。 关闭防火墙/> service iptables stop custom.conf: [security] AllowRemoteRoot=true [xdmcp] Port=177 Enable=1       jQuery(document).ready(function () { jQuery("a#share_link").click(function () ... More

vsftp安装及常见问题解决

  安装vsftpd #yum -y install vsftpd 开机自启动 #chkconfig –level 345 vsftpd on   修改配置 #vim  /etc/vsftpd/vsftpd.conf chroot_local_user=YES chroot_list_enable=YES(这行可以没有, 也可以有) chroot_list_file=/etc/vsftpd/chroot_list 那么, 凡是加在文件vsftpd/chroot_list中的用户都是不受限止的用户 即, 可以浏览其主目录的上级目录. 如果不希望某用户能够浏览其主目录上级目录中的内容,可以如上设置, ... More

JDK等环境配置

到oracle.com官网下载jdk1.6×××.bin文件 直接执行bin文件即可: #cd /app/setup/ #chmod u+x jdk1.6*.bin #./jdk1.6*.bin #mv ./jdk.1.6*/  /app/bin/ JDK环境配置: #vi /etc/profile 在最后面加入 #set java environment JAVA_HOME=/app/bin/java1.6 CLASSPATH=.:$JAVA_HOME/lib/tools.jar PATH=$JAVA_HOME/bin:$PATH export JAVA_HOME CLASSPATH PATH jQuery(document).ready(function () { jQuery("a#share_link").click(function () ... More