阿里云
发表主题 回复主题
  • 13914阅读
  • 9回复

[分享]新一代SaaS运维监控平台

级别: 小白
发帖
11
云币
18
— 本帖被 夜之魅 从 云监控 移动到本区(2014-08-12) —
第一部分 引言 GJQc!cqk  
>Da~Q WW|  
w|Aqqe  
    伴随着IT服务的发展,IT服务的概念也在发生着巨大的变化。IT运维服务已经由原来局限在用户身环境下的IT服务,延伸到覆盖公用云、私有云、外包服务商等多纬度、全天候的SaaS运维模式, m],Ud\  
    从狭义理解,IT服务仅仅是为了解决信息系统出现的故障,在系统出现停顿的时候可以快速的恢复。而目前的IT服务已经包含了更多的内容,IT服务渗透在信息系统的整个生命周期之中。本文基于该理念,IT服务系统的实现进行分析研究。文章基于网脊运维通SaaS(Software as a Service)模式理念,,构建统一平台下支持多类型用户使用的基于SaaS模式的IT自动化运维平台。使用户在使用效果上与企业自有IT服务运维平台基本没有区别,但节省了大量用于购买硬件设备、技术支持和维护运行的资金,同时使得原来分散在不同区域多个机构孤立的信息有了信息共享的条件,使得用户能对分散在不同地方的IT系统进行控制、并及时了解相关信息 |V&G81sM  
    同时结合网脊运维通的手机APP,用户可以随时、随地地了解自身IT基础环境、业务系统等IT资源的可用性、性能、安全事件等主要监控类别,同时结合手机APP上的一键通功能,用户可以方便地对远端机器进行硬件重启,预录制命令脚本执行等方便、快捷的一键运维功能。 w:ULi3  
    运维通集成了简单、实用的监控、远程操作等实用功能,让普通用户无需购买、安装复杂的IT运维系统就可以享受在线的IT监控、运维系统,同时具备即时通讯功能的工单流转系统,可将用户、外包服务商、IDC机房维护工程师等角色有机地整合在一起,是一个完全创新的基于SaaS模式的社交型IT运维技术平台。 O!R"v'  
#V_GOy1-  
第二部分 概述 1'KishHK=  
.p@N:)W6  
-|_ir-j  
pR$6,Vi  
2.1运维通设计背景 Ex(3D[WmMW  
JWHS nu!  
\7 a4uc  
    运维通的设计背景主要是针对目前互联网上的设备、应用越来越多,而一般客户的运维技术人员多在公司本部,系统、设备多托管在远端机房,他们希望能有一套集成了远程连接、在线监控的自动化运维解决方案,同时可以很好地集成到手机APP上,随时随地对远端设备进行监控或者简单常用的快捷操作等功能,同时IDC托管机房也希望可以拓展自身的业务范围,不停留在低价竞争的机柜出租业务上,而是可通过运维通系统对用户提供系统、实用的监控、远程维护、工单流转/考核等功能,从而可持续性地提升用户服务体验,提高自身品牌的客户美誉度。 Tj`5L6N;8  
EESN\_{~.  
2.2设计原则 ^PqF<d6  
vK$^y^  
T~>#2N-Z  
    在线系统的监控、运维与普通运维解决方案看似有许多相似的地方,但其实还是有很大的不同,普通运维解决方案部署在本地,监控的设备数量有限,使用的用户数量也有限,但在线SaaS系统则明显不同,监控的设备往往是海量数据,一个普通IDC就有上万台设备,用户数量则往往过千,如果采用普通IT运维网管软件的设计是完全不行的,同时在SaaS模式下,整个监控是在公网上完成,用户对安全性要求比较高,如果采用插件的方式,用户也一定会比较抵制,总之,在线SaaS运维系统的设计有其自身的特定,我们在开发运维通过程中,遵循了以下设计原则: I3y9:4  
Ø 弹性化架构 9`Q@'( m  
    考虑到在线SaaS系统的运营特点,运维通的设计采用了高度可扩展性的云系统架构,整个系统分为三个层次,按需部署的收集器、管理服务器以及数据库集群,任何层面的设备都是采用负载均衡的方式工作,任何设备实效后会自动切换到相应的健康设备上。 %FA@)?~  
Ø 高性能 9K"JYJ q2  
    网脊运维通的收集器,每台至少可监控、管理500台设备(主要是snmp协议特点,而非运维通设计瓶颈),每台管理服务器至少可以管理30台收集器,一个2台管理服务器、60台收集器的小型运维通系统集群就可以很好地管理、监控3万台互联网设备,其性能指标是比较高的。 }KB[B  
Ø 安全性 *y7 $xa4  
    与完全运行在用户企业内部网络的本地监控系统不同,网脊运维通系统是为广大用户通过SaaS方式来监控、管理自身设备而研发的,所以网脊科技在开发过程中摒弃了其企业解决方案运维通的很多功能强大,但会牺牲安全性的监控项目和监控策略,用户设备无需安装插件,主要通过配置SNMP(支持V3)对特定的收集器的只读功能来实现监控功能,远程操作等通过配置IPMI的功能来实现,因为通过标准的网络管理协议来进行操作,与用户的业务系统是完全隔离的,安全性比存在后门的插件方式要强很多。 H5xzD9K;/C  
Ø 移动互联网 ?b:_AO&  
    网脊运维通的操作,除了普通的web浏览器的工作方式外,手机APP的良好操作体验是比较重要的设计原则之一,我们将一些相对复杂的配置保留在web端,而查看、快捷远程操作等重要功能,我们在手机界面都很好地进行了拓展,用户可以很流畅地体验随身、随时对在线IT系统监控、快捷操作的易用、方便。 ~brFo2  
n^9  ?~  
第三部分 运维通解决方案 Fr:5$,At7-  
f`P9ku#j}  
>P(`MSc  
    运维通是一个监控、运维门户,用户只需经过简单的注册后,就可以在线实现互联网IT资源的监控、故障报警、报表、ITIL事件跟踪、一键通自动化运维等功能,同时具备,以保障客户互联网业务应用的可靠运行。 AFm1t2,+;  
    现在很多国内的IT用户都在考虑如何把自己的业务部署到私有云或混合云环境中,以增强其业务的可扩充性及高可用性,从理论上来说,云架构可以提供更高可用性的IT基础环境,但实际上云计算不是万能的,最近亚马逊及Google的多次重大云故障说明,云计算环境除了系统层面以上的应用软件问题,其更加复杂的架构及资源池算法等因素,都需要更专业的监控管理工具及具备云计算知识背景的运维人员才能很好胜任云平台的高可用运维,但一般企业显然不能把他的运维团队搬到运营商机房去,这时候,运维通就有了用武之地,下面简单介绍网脊运维通的主要特点: uHM@h{r  
Ot9V< D6h  
3.1 一键通功能 zVaCXNcbo  
uofLhy!  
=uV,bG5V1  
    运维通的一键通功能,主要实现的功能就是通过预先配置好的IPMI接口协议,实现类似远程KVM的一些功能,主要可以实现以下功能: ?d-70pm  
    · 远程开、关机----可对远程托管的已经死机、蓝屏的远端服务器,直接进行重启操作,无需IDC购买价格高昂的PDU设备,只需连接服务器主板上的IPMI接口,通过运维通软件就可以实现硬重启; %}qbkkZ  
    · 一键命令 ---- 对于常用的运维命令脚本,如:重启服务、重启进程等等,可预先设置好后,在手机APP上一键运行,当某个服务出现僵死,而自己不在电脑旁边时,这个功能就变的非常实用; %$mjJw<|&  
       49h0^;xlo:  
);JJ2Jlkd  
    手机上也具备完整的一键通功能,具体使用界面可见 K0fv( !r{  
     *xH\)|3,  
%+tV/7|F  
3.2主机监控 TQ'E5^  
Xr_pgW|  
`gguip-C  
    在线SaaS监控系统中,最重要的部分是服务器主机的监控,通过监控主机的主要可用性、性能、日志等指标,用户可以随时了解和掌握放在远端数据中心机房的设备工作好坏,配合手机APP的及时推送信息,免除在IDC托管机房还需购置短信网关等问题,主机监控主要涉及的监控项目主要有: h)dRR_  
      · CPU/内存 ---- 这是非常基本的监控项目,运维通以仪表板的方式直观地展现CPU、内存的消耗情况,让用户了解这一基本资源的消耗情况; fI:H8  
      · 端口监控 ---- 与目前主流的云监控、SaaS监控系统的总端口流量监控不同,运维通的端口监控可以任意定义物理或虚拟端口的监控,对于多台设备托管在IDC,跑不同业务的用户该项功能非常实用,并且端口监控是以连续波形的方式展现,用户可以通过设定小时、日、周等方式变换视角。 ZK dh%8C  
      · 进程监控 ----- 一般的云监控平台只可监控总进程数,这个对于网管人员非常不实用,运维通可以选择任意进程来进行监控,也是以连续波形的方式来展现。 O%JSViPw  
      · 磁盘监控------以图像化的方式展现目前所设定的监控磁盘、分区的总容量、可用容量等磁盘信息。 x)viY5vjH  
      ·服务监控-----用户可设定被监控的任意服务端口,系统会自动监控其服务状态,如果端口down则为红色,正常则为绿色 >BoSw&T$Q  
     \< 65??P  
   手机界面展示如下: MCy~@)-IN  
   2 P}bG>M  
X"/~4\tJ"  
3.3网站监控 a$}6:E  
=vEkMJ Os  
=AkX4k  
    网站监控也是SaaS监控中非常重要的部分,毕竟大部分的在线系统主要是各种网站,对于网站监控,网脊运维通可以从不同的监控点来监控被监控网站的延时响应时间,这对目前国内的网络环境还是有必要的,下图为网脊运维通网站监控实际的例子: p;->hn~D'5  
         >oY^Gx  
3.4自定义分组与拓扑图 ]|LgVXEpx  
AQh["1{yJ  
(%DRt4u <H  
    网脊运维通除了针对主机、网站等进行监控外,还允许用户对该对象进行自定义分组,并且通过类似VISIO的绘图功能来绘制自己的网络拓扑图,让用户非常直观地了解自己被监控设备的工作情况, hyu}}0:  
   UrK"u{G  
3.5丰富的自定义报表功能 hqW$k w  
`:5,e/5,  
cU | _  
    网脊运维通的报表是可以按照用户的需求进行自定义配置,自定义的规则可以监控的任意项目来进行设定,并可导出为PDF格式,具体设定项目见下图所示: x[Q&k[xV  
       ^5x4q  
       9dYOH)f  
     v" FO  
         b]#~39Iph  
3.6丰富的事件查询机制 /(zB0TEd  
viV-e$s`.  
    网脊运维通的事件机制比一般SaaS监控产品或云监控产品丰富,可按照系统的不同分类监控项目,如:主机、网站、磁盘、进程等等来进行分类查看,同时也可选择不同的时间区间来进行事件查看,支持信息内容检索、组件检索等等辅助功能,详细见下图: :?#cDyW)  
       `7_n}8NVC  
3.7自定义阀值、报警 "1%*'B^}bw  
e7|d=W  
=,E'~P  
    网脊运维通的监控项目,主要是在线服务器的一些重要的可用性、性能、事件等监控指标,每个监控项目,用户都可以自定义触发报警的阀值、报警级别等相关条件,做到事件、报警按照用户的意愿和需求来生成,免却大量无用报警、事件的烦恼。 C->[$HcRa  
v>k b^38  
       hvcR.f)C>  
第四部分 部署方案 HnK/A0jM  
P.1Qc)m4  
6\mC$:F  
    网脊运维通的监控功能简单、实用,但考虑到是SaaS应用方式,故其部署相对普通的监控系统来说要庞大和复杂一些,运维通的架构其实是分为4个层面,收集器、交互层、管理服务器/数据库、前端负载均衡/web服务器。面向用户设备的是收集器,主要负责采集用户设备的snmp监控数据,通过IPMI/SSH/WMI等协议与设备进行互动,与收集器连接的中间层面为Radis和Memcache数据缓存及交互层面,该层面负责将收集器和管理服务器之间的交互,保证收集器出问题后,管理服务器可以维持数据的完整性并把数据交互到其他收集器,管理服务器和数据库负责存储用户配置信息、业务数据,前端负载均衡/web服务器负责与用户GUI交互。 rr4 _8Rf  
QvNi8TB  
4.1 部署方式 C=EhY+5  
vT}pbOTh  
!$XO U'n  
    运维通主要是为大量用户同时使用而设计,其部署相对普通的内部局域网运维监控产品有所不同,运维通的部署分为以下4个层面:1: 收集器 T/ Ez*iQW  
    收集器的部署,取决于监控用户的多少,一般按照每收集器监控500台主机左右来进行收集器部署,网络拓扑上,可采用双网口,与内部中间层面交互的接口用内部接口,速度快,网络环境封闭、安全,监控用户设备的接口使用外部接口。2: 配置服务器 ugRV5bUk  
    配置服务器的部署数量主要取决于收集器的数量,一般按照30:1的数量来进行配比,配置服务器最好通过内部网络接口连接收集器,配置服务器无需外部接口,只需要连接收集器和数据库。3: 数据库 ]Y$&78u8t  
     数据库存放所有的监控策略、监控到的各种数据、用户信息等等,当用户量比较大的情况下建议采用集群的方式来部署,运维通采用的是mongoDB,其集群部署最少需要5台设备。4: nginx/web服务器 IjgBa-o/V  
    由于用户量比较大,采用nginx来做web服务器的负债均衡,web服务器采用的是Django方式,网脊运维通的网页内容相对还是比较简明,2000用户左右用一台web服务器都没什么问题,当用户数突破这个限制比较多的情况,可以使用Nginx负载均衡来解决。 a6 * Y%?  
网脊运维通与被监控设备直接需要开通相关通信接口如下表所示。部署前需要测试各端口是否可以正常通信。运维通部署的相关协议端口如下: qG*_w RF  
14;Av{Xt  
s'2y%E#  
 *X0K2|  
服务名称
&a~L_`\'  
端口
 bsD'\  
源地址
Hv+:fr"  
目的地址
^M"HSewo  
备注
_4!7 zW^  
SSH
>DkN+S  
22
}.w#X   
收集器地址
Z,(%v.d  
公网被监控设备
b^@`uDb6  
远程命令等
vl>_e  
WMI
moZ)|y  
135
60(}_%  
收集器地址
DKf}47y  
公网被监控设备
s= 3EBh  
windows命令等
;e`D#khB  
SNMP
MM/BJ  
161
\5j22L9S  
收集器地址
KzxW?Ji$S  
公网被监控设备
ZA 99vO  
监控数据
Qu,)wfp~  
web服务
UEx(~>  
80/81
i2`.#YJ&v  
外部用户
;+aDjO2(  
web服务器/nginx
vr8J*36{  
web访问
LRfFn^FPM  
数据库
^D>/wX\u  
27017/27018
H >@JfYZ0  
配置服务器/web服务器
:7 s#5b  
数据库集群
^mQ;CMV  
数据库服务
U?+30{hb  
memcached
HfZ (U5~  
11211 ={wjeRp  
11212 U)T/.L{0i  
11213
?U2g8D nFY  
web服务器
,vHX>)M|  
配置服务器
tjc5>T[Es8  
缓存服务
!W6    
rpyc
cl9;2D"Zm!  
12233
!:!@dC%8_  
收集器地址
;d'O.i=  
配置服务器
R4K eUn"  
传输连接服务
ES2d9/]p-  
wft:eQ  
P PIG?fK)  
网脊运维通典型部署的拓扑图如下: 3M>FU4Ug2  
   MHzsxF|  
hdNZ":1s  
V'BZ=.=  
CI3_lWax%  
]|\>O5eeu  
[ 此帖被jessica121211在2014-08-08 17:54重新编辑 ]

小图 | 大图 图片

级别: 技术砖家
发帖
1361
云币
494
只看该作者 沙发  发表于: 2014-08-11
saas化的服务还是不错的
级别: 小白
发帖
1
云币
1
只看该作者 板凳  发表于: 2014-08-11
Re新一代SaaS运维监控平台
价格是多少?我是外包商!你们这块的优点有哪几个?
级别: 小白
发帖
11
云币
18
只看该作者 地板  发表于: 2014-08-11
回1楼weili的帖子
惊现管理员,SaaS化的服务是为了方便更多的普通用户,注册一个账号、做一些简单的配置就能实现一些监控和远程运维的功能,相对于提供硬件和大规模部署的方式,这种方式能把运维变成一件相当简单的事,这是我们的目的。当然,我们也有定制化的运维监控服务,但那是针对有非常高要求的大客户,他们的服务器非常多,需要的监控项目也更多、更具体。
级别: 小白
发帖
11
云币
18
只看该作者 4楼 发表于: 2014-08-11
回1楼weili的帖子
目前针对普通的用户是全免费的,可以自由的添加服务器和网站,当然如果您是外包服务商,觉得可以用我们的平台来给客户实现远程运维的服务,我们也是有针对的后台系统给您来用的,按照服务费的百分比来收。另外,这个服务商后台是跟普通用户分离开的,不会影响到普通用户,这点大可放心,我们不会打着免费的旗号来变相收费的。
级别: 小白
发帖
11
云币
18
只看该作者 5楼 发表于: 2014-08-15
Re新一代SaaS运维监控平台
顶上去,让更多的人看到 .kbr?N,'  
级别: 小白
发帖
11
云币
18
只看该作者 6楼 发表于: 2014-08-15
Re新一代SaaS运维监控平台
顶上去,让更多的人看到 }|AX_=a  
Ny[Q T*nV  
级别: 论坛版主
发帖
3414
云币
8780

只看该作者 7楼 发表于: 2014-08-19
价格是个大问题
级别: 小白
发帖
11
云币
18
只看该作者 8楼 发表于: 2014-08-21
回7楼小柒2012的帖子
价格才最不是问题吧……我们对普通的用户,监控15个项目以下都是免费的呀
级别: 小白
发帖
11
云币
18
只看该作者 9楼 发表于: 2014-08-21
回8楼natbase的帖子
一般的用户不需要监控15台服务器以上吧……所以对用户就相当于全免费的啦
发表主题 回复主题
« 返回列表上一主题下一主题

限100 字节
如果您在写长篇帖子又不马上发表,建议存为草稿
 
验证问题: 阿里云官网域名是什么? 正确答案:www.aliyun.com
上一个 下一个