预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共77页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

大数据时代的数据库3大数据特性用一个实例来理解云计算云计算所需解决的问题——假设某家企业开发一个旅游网站云计算所需解决的问题——假设某家企业开发一个旅游网站何为云计算?(理解1)何为云计算?(理解2)网络计算发展趋势为什么云计算如此流行那么云计算数据库是怎样提出的呢?关系数据库与Hadoop分布式系统的比较云计算的核心技术云计算提出——hadoop思想云计算核心技术云计算核心技术云计算核心技术云计算核心技术Hadoop框架——分布式文件系统(HDFS)/MapReduce原理云计算核心技术Example:CountingWords云计算核心技术——Hbase逻辑模型——Hbase物理模型云计算核心技术1、对应每次数据操作的时间,可由系统自动生成,也可以由用户显式的赋值2、Hbase支持两种数据版本回收方式:A、每个数据单元,只存储指定个数的最新版本B、保存指定时间长度的版本(例如7天)3、常见的客户端时间查询:“某个时刻起的最新数据”或“给我全部版本的数据”。云计算核心技术云计算核心技术云计算的核心技术在现实应用------应用之一HadoopinTelecom云计算核心技术云计算核心技术云计算核心技术云计算核心技术云计算核心技术云计算核心技术云计算核心技术一、大数据存储管理和索引查询问题二、Hadoop性能优化问题三、图数据并行计算模型和框架四、并行化机器学习和数据挖掘算法五、社会网络分析六、排名和推荐七、Web信息挖掘和检索八、媒体分析检索九、自然语言处理十、大数据可视化计算与分析Hadoop----发展形势BerkeleyBDAS平台NoSQL数据库CAP理论多副本数据一致性模型47应用场景:内容缓存,主要用于处理大量数据的高访问负载,也用于一些日志系统。优点:查找迅速缺点:数据无结构,通常只被当做字符串或二进制数据Java实现的开源key-value数据库特征数据自动冗余备份于多个结点上数据分区存储单点故障对整个系统透明支持复杂数据类型的序列化将数据项进行版本化,出现故障时最大限度保证数据的完整性开源项目,源代码采用了Apache2.0的使用许可特征自动将在线数据迁移到低延迟的存储介质的技术(内存,固态硬盘,磁盘)可选的写操作一一异步,同步(基于复制,持久化)多线程低锁争用尽可能使用异步处理自动实现重复数据删除动态再平衡现有集群通过把数据复制到多个集群单元和支持快速失败转移来提供系统的高可用性。51应用场景:分布式文件系统优点:查找迅速,可扩展性强,更容易进行分布式扩展缺点:功能相对有限5354最初由Facebook开发,用于储存收件箱等简单格式数据,集GoogleBigTable的数据模型与AmazonDynamo的完全分布式的架构于一身Facebook于2008将Cassandra开源,此后,由于Cassandra良好的可扩放性,被Digg、Twitter等知名Web2.0网站所采纳,成为了一种流行的分布式结构化数据存储方案。主要特征:模式灵活:使用Cassandra,像文档存储,你不必提前解决记录中的字段。真正的可扩展性:Cassandra是纯粹意义上的水平扩展。为给集群添加更多容量,可以指向另一台电脑。你不必重启任何进程,改变应用查询,或手动迁移任何数据。分布式写操作:有可以在任何地方任何时间集中读或写任何数据。并且不会有任何单点失败。列表数据结构:在混合模式可以将超级列添加到5维。对于每个用户的索引,这是非常方便的。应用场景:web应用等优点:数据要求不严格,不需要预先定义结构缺点:查询能力不高,缺乏统一的查询语法可以通过JavaScriptObjectNotation(JSON)API访问“Couch”=“ClusterOfUnreliableCommodityHardware”,目标具有高度可伸缩性,提供了高可用性和高可靠性,即使运行在容易出现故障的硬件上也是如此特点CouchDB是分布式的数据库,他可以把存储系统分布到n台物理的节点上面,并且很好的协调和同步节点之间的数据读写一致性CouchDB是面向文档的数据库,存储半结构化的数据CouchDB支持RESTAPI,可以让用户使用JavaScript来操作CouchDB数据库,也可以用JavaScript编写查询语句,用AJAX技术结合CouchDB开发出来的CMS系统会简单方便工作原理CouchDB构建在强大的B+树储存引擎之上。这种引擎负责对CouchDB中的数据进行排序,并提供一种能够在对数均摊时间内执行搜索、插入和删除操作的机制。数据库的结构独立于模式,依赖于使用视图创建文档之间的任意关系,使用Map/Reduce计算这些视图的结果在CouchDB中没有锁机制,它使用的是多版本并发性控制(Multiversionconcurrencycontro