SDCC 2015数据库专场:分布式数据库的实践和挑战
发布日期:2016-4-24 18:4:6
2016年3月18日-19日,由CSDN重磅打造的数据库核心技术与实战应用峰会、互联网应用架构实战峰会在上海举行。作为SDCC 2016(中国软件开发者大会)系列技术峰会的一部分,活动继续秉承干货实料(案例)为主的内容原则,这两场峰会将邀请业内顶尖的架构师和技术专家,共同探讨高可用/高并发系统架构设计、新技术应用、移动应用架构、智能硬件架构、微服务、云数据库实战、新一代数据库平台、产品选型、性能调优、大数据应用实战等领域的热点话题与技术。 SDCC始建于2007年,已经成功举办七届、历届技术讲师超过550位、参会人数超过7500人,SDCC也已成为技术圈口碑卓越的技术会议品牌。现在,就让我们一起来回顾下,SDCC 2015数据库实战论坛上那些大咖们的精彩分享。 1、AdMaster技术副总裁卢亿雷:分布式数据库挑战与分析 卢亿雷首先简单介绍了分布式数据库的隔离性、CAP理论与NoSQL。他从用户和系统的面向性、功能、DB设计、数据特性、存取数、工作单位、用户数和DB大小等几方面对比分析了OLTP和OLAP。他举例分析了如何在SSD存储下提高数据库性能,如何在支持分布式事务前提下提高数据调用性能,以及如何对几千甚至几万列复杂查询提供秒级返回结果等问题。他详细介绍了Elasticsearch的特性,以及用于多维度实时查询和处理的Pinot和Druid。 下图为AdMaster技术副总裁卢亿雷: 1 2、开源分布式数据库TiDB创始人刘奇:TiDB,HBase分布式事务与SQL实现 TiDB适用于高并发、大规模、分布式数据库系统架构设计。TiDB支持MySQL协议,便于用户从MySQL的相关解决方案迁移。他详细分享TiDB的分布式事务引擎的实现,如何在Hbase上实现分布式事务。 下图为开源分布式数据库TiDB创始人刘奇: 3 3、阿里巴巴资深技术专家,DRDS负责人王晶昱(花名:沈询):阿里分布式数据库双11实战 沈询首先回顾了数据库存储的发展。数据库发展过程中,曾出有层级模型、关系模型。层次模型在用于查询某个数据时需要遍历所有层级,而关系模型则可以通过一行代码完成查询。性能损耗是关系模型的缺点。通过索引查询可以可提升该系统性能。而移动/互联网时代,用户需要与各服务的核心数据和能力实现直接交互。对于数据库来讲,我们需要讲数据分散到更多的机器上,系统可以实现水平层级的扩展。 下图为阿里巴巴资深技术专家王晶昱: 2 从2009年开始,阿里双11就开始用DRDS保证系统的稳定与快速,tps实现了从5000到几百万的转变。他们在今年增加了更多的机房。他们将数据切分为多个单元,从业务应用、DRDS到数据库。他详细分析了双11中的DRDS的实战过程。 4、柏睿数据董事长兼CTO刘睿民:RapidsDB海量并行SQL在大数据深度学习中的运用 刘睿民详细讲解了RapidsDB的物理、逻辑架构和特性。对于用户来讲,只需要专注于SQL语句的编写,复杂的分布式内存处理及查询优化,则交由系统底层来自动处理。存储在各个节点内存中的分布式数据,被统一地管理和访问,用户将查询语句提交给RapidsDB的分布式查询引擎DQS。RapidsDB除了支持SQL,还支持关系型、服务器端的跨分区多表关联。他还详细分享了MPP SQL引擎优化的工作。 下图为柏睿数据董事长兼CTO刘睿民: 5 5、百度大数据部主任架构师马如悦:Palo分析型数据库在百度内的应用实践 Palo适用于数据的统计分析、报表(MySQL存结果数据、批处理)和多位分析(Hadoop+Hive)。百度统计应用了Palo后,机器数从220下降到58,查询平均延时也从60ms缩短到30ms。在演讲中,马如悦分析了多套数据模型,以及Palo的整体架构和关键技术。 下图为百度大数据部主任架构师马如悦: 4 它可通过查询重写机制(query rewrites)自动决定一个查询的优化方法以便减少查询所需的资源,比如如果相同的表达式在同一个查询中出现多次,查询将只计算该表达式一次并会在多个地方重用该结果值。甚至如果查询多次引用相同的表,则只对该表进行一次扫描满足所有引用需求。 6、腾讯公司高级软件工程师潘安群:腾讯金融级数据库TDSQL分析 TDSQL的核心是基于MySQL做的。腾讯基于TDSQL有米大师、Webank和腾讯金融云三款金融级数据库产品。金融行业对于数据库有一些要求:高一致性,零数据丢失;7×24小时的自动容灾,高可用性;具备易伸缩特性,能承载百亿级日交易流水,十万级别每秒并发、毫秒级交易相应。他分析了TDSQL的容灾机制、扩容机制、配套设施。 下图为腾讯公司高级软件工程师潘安群: 7 7、南大通用GBase 8t技术总监孙国荣:GBase 8t高可用解决方案 目前核心业务系统主要是基于存储建立容灾方案。在新环境下,信息系统稳定性需要面对数据库异常宕机、磁盘故障、网络中断等挑战。GBase 8t提供完整的数据库级高可用解决方案,提供秒级故障自动切换功能。 下图为南大通用GBase 8t技术总监孙国荣: 6 8、巨杉数据库联合创始人王涛:SequoiaDB与Spark在金融行业中的应用 SequoiaDB是一个NoSQL的数据库。在传统系统中,数据首先进入元数据层,然后通过数据集成层的数据搜集、抽取、清晰、转换,最后数据会被分类处理。传统环境下,在线业务和离线业务的数据都是隔离的,而在现在数据则是可以实时查询、批量分析的。SequoiaDB提供集合分区(主子集合)机制可以轻松应对时间序数据。它可以避免单一集合数据量膨胀时索引树过大而导致的写入性能雪崩,按时间序能直观反映数据访问热点,保障热点数据集合的性能,并可以直观的分配资源给不同集合,直观的备份、归档规则。SequoiaDB不仅可以使用Spark做交互式的功能,也可以整合到现有的Hadoop环境。他简单讲解了SequoiaDB与Spark的集成。 下图为巨杉数据库联合创始人王涛: 8
|