首页>会议文档 >

郝大为_银行 PB 级别海量非结构化数据管理实践

page:
郝大为_银行 PB 级别海量非结构化数据管理实践
郝大为_银行 PB 级别海量非结构化数据管理实践
郝大为_银行 PB 级别海量非结构化数据管理实践
郝大为_银行 PB 级别海量非结构化数据管理实践
郝大为_银行 PB 级别海量非结构化数据管理实践
郝大为_银行 PB 级别海量非结构化数据管理实践
郝大为_银行 PB 级别海量非结构化数据管理实践
郝大为_银行 PB 级别海量非结构化数据管理实践
郝大为_银行 PB 级别海量非结构化数据管理实践
郝大为_银行 PB 级别海量非结构化数据管理实践
郝大为_银行 PB 级别海量非结构化数据管理实践
郝大为_银行 PB 级别海量非结构化数据管理实践
郝大为_银行 PB 级别海量非结构化数据管理实践
郝大为_银行 PB 级别海量非结构化数据管理实践
郝大为_银行 PB 级别海量非结构化数据管理实践
郝大为_银行 PB 级别海量非结构化数据管理实践
郝大为_银行 PB 级别海量非结构化数据管理实践
郝大为_银行 PB 级别海量非结构化数据管理实践
郝大为_银行 PB 级别海量非结构化数据管理实践
郝大为_银行 PB 级别海量非结构化数据管理实践
郝大为_银行 PB 级别海量非结构化数据管理实践
郝大为_银行 PB 级别海量非结构化数据管理实践
郝大为_银行 PB 级别海量非结构化数据管理实践
郝大为_银行 PB 级别海量非结构化数据管理实践

郝大为_银行 PB 级别海量非结构化数据管理实践

所属会议:第七届数据技术嘉年华会议地点:北京


下载

手机看
活动家APP客户端

扫二维码下载
或点击下载
Android iOS

8861次
浏览次数
第七届数据技术嘉年华所有文档 袋鼠 镇伟_云上 Oracle 最佳实践 张辉_智能网络打造数据库平台高速路 RAC 曾令军_性能优化实战 邝志辉_系统级跟踪诊断方法及案例 李真旭_细致入微:Oracle 经典案例分享 罗海雄_一次性能优化隐含的秘密_罗海雄 侯圣文_大数据,未来职场必须要get的技能域 肖鹏_回首十年,如何让路变的更宽 - DBA 职场规划反思 杨建荣_Oracle 和 MySQL DBA 的进阶之路 云和开创 刘伟 -可读性的explain Andrew Holdsworth_Where is the industry going in the autonomous database era 王佳毅_永不停止的脚步 - 数据库优化之路 吴承杨_Autonomous DB and Oracle Paas IAAS strategy 楼方鑫_Oracle 数据库网关生产实践 彭晓平_大型数据中心数据安全管控 去哪儿 高级DBA 强昌金_靠谱才是硬道理 - MySQL 数据安全体系详解 黄廷忠_子查询优化的最佳实践 刘旭_SQL 审核服务 - 行业最佳实践 DSG创始人、总裁 韩宏坤_大数据时代的DSG复制云_部分1 DSG创始人、总裁 韩宏坤_大数据时代的DSG复制云_部分2 鲍琳_我们是如何构建金融级数据库云的 王向飞_京东云数据库架构实践 云和恩墨 杨廷琨_从自动化到自治数据库 - 从 Oracle 12c 到 18c 的新进展 郑战伟_云计算、大数据下灾备行业发展趋势探讨 周崇毅_Kubernetes 与 OpenStack 融合支撑企业级微服务架构 K-DB 江豫京_云技术发展历程及展望 TiDB 申砾_Design and Architecture 那海蓝蓝 李海翔_腾讯金融云分布式数据库云分布式数据库的事务处理技术 宋利兵_MySQL - 8-0 中的复制技术 张云杨_阿里云新一代数据库 POLARDB Oracle数据库团队 郑军-全面解读Oracle数据库云 龙雪刚_SQL 优化利器之SQLAdvisor 福建农信 谢方恺_基于工具的 SQL 审核研究与实践 海通证券 王朝阳_海通证券金融云思考与实践 赵守斌_恒丰金融云探索实践 渤海财险数据架构智能化演进- 2017数据技术嘉年华脱敏 唐刘_分布式强一致性数据库的灵魂 - Raft 算法的理论和实践 王璞_下一代企业级应用架构管理体系 钟储建_后 IOE 时代的数据平台架构实践 程实_ElasticDB 数据库 偶数科技 常雷_云数据库的本质 杨琳_Oracle TimesTen下一代分布式内存数据库概述 高新刚_打造京东金融平稳高效的数据库运维体系 Andrew Holdsworth曲卓董志平_自治数据库时代的 SQL 优化

文档介绍

这是一个数据的时代,在互联网技术的推动下,数据在开放融合中正在创造前所未有的价值;创新的数据技术也在不断激发企业业务模式的革新,以数据聚集、数据挖掘、数据运营为驱动的数据企业正在加速成长。有效地组织数据,并利用数据创造价值,已经成为企业竞争的新的制高点。

演讲实录

期,巨杉数据库的技术总监郝大为受邀在第七届数据技术嘉年华中做了“银行PB级别海量非结构化数据管理实践”为主题的演讲,分享了巨杉数据库有关金融行业数据库管理以及金融级数据库技术与应用的一些实践及思考。



新一代金融级数据管理需求

数据爆炸:数据呈现急剧增长,对数据存储的数据量,并发性和响应速度都提出了更高要求。以大型商业银行为例,通常它们拥有成百上千个业务系统以及上亿用户的海量数据,且数量呈现指数级增长,从TB级别增加到PB级别,未来很快就会增加至EB级别,这些都需要有效的管理以及实现实时访问。

数据融合:不仅是金融行业,在过去,各个业务的数据都是以孤岛的形式独立存在,而我们需要的是跨业务、跨业务系统的数据统一管理和维护,甚至需要统一架构支撑下的数据沟通交流。打破数据孤岛就成为金融行业的切实需求。

非结构化数据:非结构数据在金融行业数据量上的占比逐渐占绝对优势的一种数据存在的形式。图像、图片、语音、有格式的文档都是非结构化数据,非结构化数据量每年增长80%左右。数据量的快速增加,再加上对银行业两地三中心数据安全的要求,对非结构化数据的存储和管理的要求就提高了。这也是金融业的行业需求。

随着银行远程开户、柜面无纸化、双录、会计档案管理等系统的建立和升级,影像系统除了满足商业银行在线业务系统不断提升的访问性能需求外,还需要提供作为在线系统的高可用、灾备甚至“双活”能力,以保证系统数据绝对安全。



金融级数据库核心能力



面对金融行业的新需求,新一代金融级数据库需要在分布式架构、非结构化数据管理、多模式数据处理、标准化数据访问、数据可靠性、与混合负载等几个角度对传统数据库架构进行重新定义。

1)分布式架构

由于传统数据库的单点架构无法满足新型金融科技应用对数据量与并发能力的需求,新一代金融级数据库必须采用分布式架构来应对该类挑战。分布式架构,将海量数据均匀存储在多台物理设备中,以避免单一设备所造成的瓶颈。同时,分布式数据库的灵活扩展能力,为金融业务增长提供了弹性的容量与性能支持,在大规模数据应用中具有明显的技术优势。

我们以巨杉分布式架构为例,无论是数据还是文件系统等元数据都要进行分布式存储,同时元数据的管理也应该是分布式、高可用、没有单点故障的。分布式架构必须具备弹性拓展和性能线性增长,同事分布式架构可以有效降低TCO、总体应用成本。分布式架构有很好的管理能力,可以降低开发运维的成本。

2)多模式数据管理---非结构化数据管理

如今,在金融业务“互联网化”和“零售化”的趋势下,金融机构开始向用户提供更多个性化、定制化的产品与服务。特别是非结构化数据,增长最为迅猛。

通常来说,结构化数据特指表单类型的数据存储结构,典型应用包括银行核心交易等传统业务;而半结构化数据则在用户画像、物联网设备日志采集、应用点击流分析等场景中得到大规模使用;非结构化数据则对应着海量的的图片、视频、和文档处理等业务,在金融科技的发展下增长迅速。

为了实现金融业务数据的统一管理和数据融合,新型数据库需要具备多模式(Multi-Model)数据管理和存储的能力,以满足应用程序对于结构化、半结构化、非结构化数据的管理需求。

多模式数据管理能力,使得金融级数据库能够进行跨部门、跨业务的数据统一存储与管理,实现多业务数据融合,支撑多样化的金融服务。

3)标准数据访问与混合负载

根据Gartner的最新定义,混合负载(HTAP Hybrid Transactional/Analytical Processing)在保留原有在线交易功能的同时,也强调了数据库原生计算分析的能力。支持混合负载的数据库能够避免在传统架构中,在线与离线数据库之间大量的数据交互,同时也能够针对最新的业务数据进行实时统计分析。

为了避免在线实时读写与批处理作业之间的资源干扰,混合负载型数据库通常使用读写分离或内存处理技术实现。一般来说,分布式数据库的多副本架构天然支持读写分离技术,而基于传统架构的数据库往往采用内存处理技术进行实现。

4)数据安全

伴随着在企业内部价值的不断提升,数据已经成为了金融企业的生命线与核心资产。作为承载着企业关键数据的数据库,其安全性、可靠性、稳定性一直是金融级数据库的核心价值。

数据安全领域重要的一个概念是容灾能力,银监会就要求银行业要符合两地三中心的要求。这其实是一个数据多副本的思想,任何一个副本丢失我们还有其他副本可以支撑数据管理的需求,数据服务的需求。这对于金融企业显得尤其重要。

金融级数据库应用案例

1)银行业分布式影像平台

银行业影像平台案例,是在某大型股份制银行实施的,该平台底层基于巨杉数据库,目前已经投入生产。

巨杉数据库适合于结构化、非结构化、半结构化数据存储。在应用层面提供对外的影像文件管理服务能力,有两台或者更多台具备负载均衡和高可用能力的应用服务器,服务器上对接的是银行内部业务系统,当需要查非结构化数据时就可以接入影像管理平台,巨杉数据库支撑的是PB级的数据存储,同时支持了高可用。

此外,巨杉数据库支持多索引,毫秒级别实时数据访问,这么大数据量下依然提供这么大的访问性能,总体应用成本跟过去影像平台对比可以降低三分之一,这是整个巨杉数据库分布式的架构决定的。

2)证券超高并发数据访问

证券交易主要特点是频度高,每天可能有上亿条交易数据。证券交易场景一般都是结构化数据,大量结构化数据进入系统提高高并发的结构能力。

这个系统可以帮助用户查询证券交易的所有历史交易明细,并且查询的返回速度依然很高,在海量数据情况下可能做到百毫秒以内的查询范围。

实现结果:

平均每日超过2亿条记录写入

高峰时段,同时有超过百亿级别的数据需要被检索、调用

系统保存3年内所有交易和持有数据

峰值并发量超过10000

高峰时段,查询返回时间小于100ms

3)银行海量数据管理

关于银行海量数据的管理平台,实际上是银行多业务系统的结构化数据组成一个统一的查询平台,用户可以通过这个平台去查询业务,而不再需要查询原有业务系统,这样原有业务系统数据库的负载就降下来了。原有业务系统数据库只保存需要在线交易的那部分数据,其他的数据全部储存在巨杉数据库。

SequoiaDB利用其横向扩展、支持标准SQL以及双引擎的机制,能够在存储海量历史数据的同时对外提供在线查询与分析能力,这就使得银行能将传统的离线数据做到近线化,将冷数据有效地使用起来。

巨杉数据库的多家银行客户使用SequoiaDB提供高并发的数据查询和访问功能,使银行客户能够在柜台、网银、手机银行上随时随地查询开户以来所有的交易历史。同时,该平台可以提供司法查询的能力,使银行IT部门不需要为了复杂多变的查询请求,在历史带库与数据库之间疲于奔命。

4)其他案例

在政府行业,巨杉数据库可以对电子证件进行集中存储和查询,可以帮助行政服务大厅或者其他政府部门查询信息,提升工作的效率。

在交通领域,大量摄像头实时采集的图片和视频数据需要存储,并且现在还增加了实时处理分析套牌违规等行为,这背后也需要强大的数据存储管理查询或者存储引擎支撑海量的数据,巨杉数据库能够有效满足这种需求。

×

打开微信扫一扫,分享到朋友圈