阿里云
发表主题 回复主题
  • 600阅读
  • 9回复

7月份的时候,宁夏银行系统故障业务中断37小时 ,7年未购维保服务,您怎么看?

级别: 小白
发帖
0
云币
-41



宁夏银行今年7月1日下午15时至7月3日核心系统数据库出现故障,导致存取款、网银、ATM等业务全部中断长达37个多小时,其间只能依靠手工办理业务。

下面是详细报道:

有消息称,监管部门发文也通报了宁夏银行的这起数据库故障,称经初步分析,在季末结算业务量较大的情况下,因备份系统异常导致备份存储磁盘读写处理严重延时,备份与主存储数据不一致,在采取中断数据备份录像操作后,造成生产数据库损坏并宕机。


  不过本报记者暂未联系上监管部门置评。某城商行电子银行部负责人表示,听说了宁夏银行数据库故障的事,但暂未收到监管部门的文件。


  当日21世纪经济报道记者致电宁夏银行董事会办公室时,相关工作人员表示,“不方便说”。至于数据库故障是否造成损失,其称,“以监管部门的通报为准”。


  曾经的演练:仅1小时恢复正常


  有媒体引述监管部门消息称,2014年7月1日,宁夏银行核心系统数据库出现故障,导致该行(含异地分支机构)存取款、转账支付、借记卡、网上银行、ATM和POS业务全部中断。因宁夏银行应急恢复处置机制严重缺失,导致系统恢复工作进展缓慢,业务系统中断长达37小时40分钟,其间完全依靠手工办理。


  尽管宁夏银行并未有相关公告,但是另外两则消息可以佐证这一事实。7月2日,银川市医疗保险事务管理中心官方微博称,因宁夏银行机房出现故障,自2014年7月1日15:30起全市定点医疗机构和定点零售药店共700多家不能刷医保卡(社保卡)就医结算。


  此外,宁夏土地和矿业权交易中心网站也于7月3日通知,宁夏银行2014年7月1日下午15时37分至7月3日8时30分业务系统出现故障,导致土地和矿业权网上交易系统无法与银行连接。


  前述城商行电子银行部负责人向21世纪经济报道表示,“之前有一家全国性的商业银行也出现过这样的情况,核心数据库出现故障。不过造成业务这么长时间中断的比较少见。”


  监管部门此前就对银行的信息系统安全提出诸多指导意见。早在2006年,央行和银监会就分别发文,要求全国性大型银行,原则上同时采用同城和异地灾难备份和恢复策略,区域性银行可采用同城或异地灾难备份和恢复策略。


  2008年2月,央行发布《银行业信息系统灾难恢复管理规范》要求:短时间中断对国家、外部机构和社会产生重大影响或影响单位关键业务功能并造成重大经济损失的系统RTO(恢复时间目标)<6小时,RPO(恢复点目标)<15分钟。


  RTO是反映业务恢复及时性的指标,表示业务从中断到恢复正常所需的时间;RPO是反映恢复完整性的指标,在同步复制下,RPO等于数据传输时延长时间。


  宁夏银行官网刊登于2010年的一篇新闻稿也表示,该行当时实施过一次异地灾难恢复演练。宁夏银行数据中心与备份中心,分处宁夏银川和陕西西安。演练设计了数据库系统瘫痪和数据中心发生火灾两个场景,分别进行本地和异地的系统恢复和切换。


  模拟灾难发生后,银川数据中心瘫痪,无法向外界提供服务。此时,需要在西安容灾中心启动备份系统进行数据和业务恢复。该行称,演练的RTO<1小时,RPO<1分钟。


  2007年至今未购维保服务


  按照前述媒体的说法,监管部门表示,宁夏银行系统故障的根源在于,安全意识薄弱、应急管理体系缺失、应急处置过程混乱。核心系统数据库版本严重老化,2007年至今未购买维保服务。核心系统长期缺乏维护,事故发生后,无法获得系统供应商及时的数据支持。系统恢复过程中,缺乏应急预案和准备,长时间无法实施有效处置,导致业务恢复缓慢,对银行产生较为严重的影响。


  前述城商行电子银行部负责人表示,按监管部门的要求,大型银行的要建立“两地三中心”的灾备设施。要求银行的核心系统,既要有同城的灾备中心,也要有异地的。


  有业内人士向21世纪经济报道透露,灾备中心的投入巨大,年运营和维保费用一般都是几千万元。


  上述电子银行部人士也表示,“通常情况,银行数据库系统的延长维保费用每年约为购买费用的20%,核心的数据库都会购买维保服务,这是最重要的,这是不能省的钱。”


  宁夏银行此前还表示,该行大胆采用了新技术——持续数据保护技术(CDP),并从2010年2月开始实施新核心主机的升级方案和业务系统升级方案,进行CDP灾备设备的部署。


  宁夏银行信息技术部负责人王春也曾表示,“不可能抛开股东回报和经营业绩去建设一个非常昂贵的系统,成本因素是中小银行建设灾备系统时特别需要考虑的问题,也是宁夏银行灾备系统建设的着眼点之一。”


  至于什么产品能降低成本呢?王春认为,“就是选择开放式技术的产品,我们现在用的设备自己的工程师基本上能够独立操作,遇到处理不了的故障还可以找国内的厂家,能够提供技术服务的公司不止一家,这就避免了垄断厂家对服务费漫天要价的情况。”


  前述城商行电子银行部负责人也表示,CDP就是把数据的变化传到本地和异地,也可以还原到某个时点,很多银行都在用这种系统。开放性产品的确是更能节约成本,不过这次宁夏银行系统故障应该和开放式、封闭式系统没有关系。目前有相当多的银行采用封闭式系统,更多是取决于银行自身的应用环境,这就好比安卓和苹果系统,无法比较优劣。



从上面得到:


1.数据库宕机的原因:


称经初步分析,在季末结算业务量较大的情况下,因备份系统异常导致备份存储磁盘读写处理严重延时,备份与主存储数据不一致,在采取中断数据备份录像操作后,造成生产数据库损坏并宕机。


如此就宕机了,您怎么看? 存储问题?还是数据库问题?


2.宁夏银行曾经恢复演练:


仅一小时恢复正常,为什么核心业务中断达37小时之久? 如此,要这容灾系统何用!


如此演练,您怎么看?


3.宁夏银行7年不请乙方DBA,让我们这些乙方DBA们情何以堪啊。


7年不请维保商, 您怎么看? 人生有几个7年,7年=37小时吗? “真值!”


4.最后,谈谈您的看法,DBA们如何才能保证您的关键业务数据库不宕机,即使宕机,恢复的时间也在SLA之内。













银行, 系统






级别: *
发帖
*
云币
*





1.数据库宕机的原因:

称经初步分析,在季末结算业务量较大的情况下,因备份系统异常导致备份存储磁盘读写处理严重延时,备份与主存储数据不一致,在采取中断数据备份录像操作后,造成生产数据库损坏并宕机。

如此就宕机了,您怎么看? 存储问题?还是数据库问题?


备份系统的设计,本来就是以对生产环境最小影响;从相关信息提到,应该是使用了飞康的卷复制之类的技术;这是存储层面的操作;

产品明显缺陷导致的可能性应该很小;

实际上应该是有误操作导致磁盘卷损坏,数据丢失,然后后续处理不当导致问题升级;


2.宁夏银行曾经恢复演练:

仅一小时恢复正常,为什么核心业务中断达37小时之久? 如此,要这容灾系统何用!

如此演练,您怎么看?


有些演练是预设的,是完全理想化的环境下,甚至夸张点停库后,再删除某个文件测试恢复的;

我怀疑这次系统故障,可能连系统盘都受损; 加上可能自己无法处理,又没有购买维保(需花时间寻找协调),地方又比较偏避,高手过来需要时间等等;

所以这个故障时间也不是很离奇;


我们之前测试一个第三方备份产品,数据库异机恢复,老是恢复不出来(无法识别磁带数据),原厂工程师也搞不定,搞了几个星期,最后是国外的技术支持搞定的;过几个月后,真的生产环境同时坏了三个盘,所有数据丢失; 但由于之前整理出整套恢复步骤,最后几个小时终于顺利恢复;当时内心直呼狗命真好,要不是几个月前的坚持演练,后果不堪设想;


3.宁夏银行7年不请乙方DBA,让我们这些乙方DBA们情何以堪啊。

7年不请维保商, 您怎么看? 人生有几个7年,7年=37小时吗? “真值!”


从其它信息看到,只是7年没有购买原厂服务,也许有购买第三方的服务;

就算没有,如果自己内部够强,不购买外部服务也不奇怪,我见识过不少甲方的DBA水平也是一流的;

特别是开始是一流的人负责,后来离职了,领导不重视,就让后面的人顶上来,但水平就有差距了,这种案例也不少;

只是,不购买外部服务,在出事的时候,确实是一个受攻击的点,明显负责IT的领导政治意识不强;


4.最后,谈谈您的看法,DBA们如何才能保证您的关键业务数据库不宕机,即使宕机,恢复的时间也在SLA之内。


这个说难就难,不难就不难;领导重视,架构强壮,流程合理,定期演练! 如果能这样,我认为基本能保证;

一般这种关键系统,本地集群,在线热备,两地三中心之类是需要的;

级别: *
发帖
*
云币
*


中断数据备份录像操作7月份的时候,宁夏银行系统故障业务中断37小时 ,7年未购维保服务,您怎么看?-宁夏考试中心
级别: *
发帖
*
云币
*


某人说过:历史总会重演。
级别: *
发帖
*
云币
*


这是乙方dba幸灾乐祸啊
级别: *
发帖
*
云币
*


这事和飞康的CDP脱不了干系吧,呵呵
级别: *
发帖
*
云币
*


5楼学习了

级别: *
发帖
*
云币
*


不管甲方乙方,必须需要dba的,

不备份,不进行演练恢复,

血的教训早晚出现!
级别: *
发帖
*
云币
*


其实演练根本没什么参考性~都是一些软件厂商的推广手段

真正出现问题的时候往往都是在业务高峰.复杂度就可想而知了~

最重要的还是要把功夫用在平时.有时候避免问题发生也很重要~
级别: *
发帖
*
云币
*


路过学习。。。。。。。。
发表主题 回复主题
« 返回列表
«12345678910»
共10页
上一主题下一主题

限100 字节
批量上传需要先选择文件,再选择上传
 
验证问题: ECS是阿里云提供的什么服务? 正确答案:云服务器
上一个 下一个
      ×
      全新阿里云开发者社区, 去探索开发者的新世界吧!
      一站式的体验,更多的精彩!
      通过下面领域大门,一起探索新的技术世界吧~ (点击图标进入)

      版权声明

      开发者论坛为你提供“7月份的时候,宁夏银行系统故障业务中断37小时 ,7年未购维保服务,您怎么看?”的内容,论坛中还有更多关于 系统故障银行存取款对象同步外部中断c语言中断延时灾难性故障 的内容供你使用,该内容是网友上传,与开发者论坛无关,如果需要删除请联系zixun-group@service.aliyun.com,工作人员会在5个工作日内回复您。