转帖
2分钟读懂大数据框架Hadoop和Spark的异同

谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。

2015-12-15 14:17:06.000
转帖
如何运用Spark进行实时数据分析

Spark是一个比MapReduce更加灵活的开源且通用的计算框架。Spark凭借其高速的内存计算,在函数式编程中与Hadoop相比更具生产力。

2015-12-14 14:22:15.000
转帖
凭智商做判断过时了,未来拼的是“数据+”

我们正处在第二个机器时代,这个时代有一条简明法则:随着数据量增长,人类判断的重要性应当降低。

2015-12-11 09:55:24.000
原创
什么是Spark,如何使用Spark进行数据分析

Spark是UC Berkeley AMP lab所开发类似于Hadoop MapReduce的通用并行计算框架,Spark是基于map reduce算法实现分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出的结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce算法。

2015-12-09 10:39:24.000
转帖
看图说话——八张图告诉你什么是大数据

近期,微信朋友圈投下了一颗重磅炸弹——精准广告投放,一时之间掀起轩然大波。这让本就炙手可热的“大数据”又一次被推上了风口浪尖。事实上,2015年大数据市场规模预计达1250亿美元。到底什么是大数据?面对大数据势不可挡的趋势,我们应该怎样应对?

2015-12-08 10:37:21.000
转帖
数据分析的 7 个关键步骤

“数据科学家” 术语总让人联想到一个孤独的天才独自工作,将深奥的公式应用于大量的数据,从而探索出有用的见解。但这仅仅是数据分析过程中的一步。数据分析本身不是目标,目标是使企业能够做出更好的决策。数据科学家构建出的产品,必须使得组织中的每个人更好地使用数据,使得每个部门、每个层级可以做出受数据驱动的决策。

2015-12-07 11:54:50.000
原创
完全分布式HBase集群安装配置示例

HBase 是一个开源的非关系(NoSQL)的可伸缩性分布式数据库。它是面向列的,并适合于存储超大型松散数据。HBase适合于实时,随机对Big数据进行读写操作的业务环境。关于HBase的更多介绍请参见HBase项目官网。

2015-12-03 15:12:45.000
原创
HBase基础知识,面向列的实时分布式数据库

Hbase是运行在Hadoop上的NoSQL数据库,它是一个分布式的和可扩展的大数据仓库,也就是说HBase能够利用HDFS的分布式处理模式,并从Hadoop的MapReduce程序模型中获益。

2015-11-17 10:11:18.000
原创
Hadoop开发人员基础课程之初识MapReduce

随着Hadoop在国内的迅速崛起,MapReduce也逐渐引起开发人员的重视,作为Hadoop的核心,让我们一起来看看它是怎样运作的。

2015-11-13 11:38:03.000
原创
分布式文件系统HDFS解析

HDFS是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集的应用处理带来了很多便利。

2015-11-11 11:05:12.000
扫码咨询


添加微信 立即咨询

电话咨询

客服热线
023-68661681

TOP