ORACLE ACS高级顾问罗敏 《老革命遇到新问题》 新书《品悟Oracle核心技术》之外的感悟!

ORACLE ACS高级顾问罗敏 《老革命遇到新问题》 新书《品悟Oracle核心技术》之外的感悟!

老革命遇到新问题

  1. 我害怕Oracle什么技术工作?
    以下是当年在《品悟性能优化》一书中同样标题下的一段文字:
    “我害怕Oracle什么技术工作?
    在Oracle数据库众多技术工作中,例如数据库逻辑设计、物理设计、系统安装、应用开发指导、性能优化、备份恢复、故障诊断等,我最怕安装和打补丁!没想到吧?
    本章只说说安装,特别是RAC安装的话题。在Oracle公司从事技术的同事有一个共识:安装RAC,其实不需要懂多少Oracle数据库,你会启动和关闭Clusterware,以及启动和关闭ASM实例、Listener、数据库就可以了,但如果你不懂操作系统,不懂HA软件,不懂网络,你肯定装不好RAC… …”
    没想到已经从事Oracle技术工作20多年,在Oracle公司也已就职13年的2014年,在安装问题上再次让我吃尽苦头:为某客户在Windows 2012平台安装11g R2 RAC,居然折腾我一个多月,自觉加了无数次的班,向Oracle公司后台服务团队申请的SR都升级到了7*24的1级,仍然搞不定,最后连客户都绝望地放弃了,但执着的我在梳理了所有问题的来龙去脉之后,最终还是主要靠自己的力量安装成功了。其间的心路历程、经验教训、酸甜苦辣值得回味和总结,希望让更多的Oracle同仁们从中受益。
  2. “为什么要在Windows平台安装RAC?”
    话说某客户为充分满足其新建系统高可用性、高性能、可扩展性等综合需求,决定在Windows 2012平台部署Oracle 11g R2 RAC。“为什么要在Windows平台安装RAC?”这是我向客户提出的第一个问题。毕竟在Windows平台实施RAC的案例非常少,我自己也只在某海关客户实施过一次Windows 2008的10g R2 RAC,而我所在的Oracle服务部门,经打听才知道只有一位同事在一个银行客户,在Windows 2008平台实施过11g R2 RAC。现在在Windows 2012平台部署Oracle 11g R2 RAC对我这“老家伙”而言,也是吃螃蟹的头一遭。
    Oracle的确在X86平台的Linux环境下部署RAC才是更普遍,甚至业界公认的最佳实践经验。更何况,RAC本身就是在Linux平台首先进行研发的,其稳定性、成熟性肯定更好,装机量可能也是最多的。
    无奈,客户的回应是考虑商务问题,这批X86服务器已经采购了Windows 2012 License,更换为Linux不太合适。怎么办?毕竟11g R2 RAC在Windows 2012也是通过Oracle官方认证的,产品是没问题的,那就上吧。
    于是在正式安装日期之前的半个月左右,我就开始查阅Oracle官方联机文档中Windows平台的RAC安装手册,同时还在Metalink中查阅了在Windows平台实施RAC的最佳实践经验等文档,甚至向我唯一在Windows 2008实施了11g R2 RAC的同事索来了他的安装手册。基本上一切就绪,准备开练了!
  3. 出师不利
    也许大家都知道,安装RAC最重要的是安装前的环境准备。于是,在正式安装的第一天,经过了半天针对操作系统、网络、存储环境的大量检查和配置工作之后,下午准备正式安装了。安装之前最后一次检查网络环境时,发现问题了:明明是ping主机名和公网名,居然返回的是私网IP!这是什么问题?找来网络管理员帮忙,他也搞不定。于是我只好硬着头皮启动OUI安装GI了,在OUI进入到第6步选择集群节点信息时,发现OUI居然将私网名(HSEDB1-priv)当成了公网名(HSEDB1),第二个节点名称更是乱了套了,不是“HSEDB2”,而是被OUI自动设置成了“HSEDB1,HSEDB2”,还没办法手工去修改。这是什么原因啊?实在搞不定,继续硬着头皮往下走吧,终于在安装进程走到66%时走不动了。跑到Metalink查了一通,一篇描述GI安装到66%无法进行的文章道出了一个原因:因为没有关闭两个节点的防火墙软件,使得OUI安装完本地软件,进展到66%时,无法进行远程复制而停顿了。
    可是,我们已经按照安装文档的要求,关闭了防火墙软件呀。但症状是一样的:第二个节点的确没有进行远程复制软件。不管怎样,的确是网络问题,为什么ping主机名或公网名,居然返回的是私网IP呢?OUI检测的远程结点名居然是“HSEDB1,HSEDB2”,OUI把GI软件复制到哪儿去呢?于是,我底气十足地要求客户网络管理员先解决网络Ping问题了,这下可难为了网络管理员。不过也真佩服这哥儿们的能力,到了第二天下午快下班时,他告诉我们一个解决方案:在两个节点公网的“属性”中选择“高级”,然后将“自动跃点”选项关闭,并将接口跃点数(Metric)设为1,就能解决问题!
    果真如此,不仅Ping没问题了,而且OUI也能正常将本地节点和远程节点都识别出来了,OUI也顺利完成了远程节点复制,一直进展到100%了。但是到此OUI又不动弹了,该问题我们后面再详细叙述。
    还是回到跃点数的问题。我当时向网络管理员询问根源,性格内向的他不善言辞,只是说是在百度上查出来的。怎么说的?哪篇文章呢?他无言以对。
    其实,该问题的根源还是在过了几天之后,当我与一位老同事在讨论安装问题时,他的一个建议让我自己找出了真正原因。当时他提示我:“老罗,你是不是应该看看Oracle最新的安装文档啊,Oracle联机文档也是有版本,经常更新的。”是的,我看的旧安装文档只支持到了Windows 2008,并没有包括Windows 2012,我想当然地认为Oracle在2008和2012两个平台的安装需求应该不会有太大出入。第一个错误出现了!
    但是我还是听从了同事建议,下载了一个最新的安装文档。果然,在新文档的网络环境准备一节中,发现了专门针对Window 2012的如下一段话:
    “1.2.2.7 Manually Configure Automatic Metric Values
    On Windows 2012, the public and private network interface for IPv4 use the Automatic Metric feature of Windows. Automatic Metric is a new feature in Windows that automatically configures the metric for the local routes that are based on link speed. The Automatic Metric feature is enabled by default, and it can also be manually configured to assign a specific metric.When the Automatic Metric feature is enabled and using the default values, it can sometimes cause OUI to select the private network interface as the default public host name for the server when installing Oracle Grid Infrastructure.
    … …
    In the Interface Metric field, set the public network interface metric to a lower value than the private network interface. For example, you might set the public network interface metric to 100 and the private network interface metric to 300.”
    根据上述Oracle官方建议,应该将公网Metric设置为100,私网Metric设置为300,这才是最佳实践经验。为什么网络管理员只建议我们将公网Metric设置为1,而私网Metric保持为自动设置值,也能解决问题呢?后来我通过一个网络命令(netsh interface ipv4 show global)检查网卡属性时,才发现Windows 2012将网卡的Metric缺省值都设置为128。因此,只要将公网Metric设置为1,已经低于私网Metric缺省值128,就满足安装需求了。
    不管百度哪篇文章如何描述原委,甚至假设是网络管理员蒙出来的也罢,虽然解决了问题,但是还是需要找到官方的正式说法,这才是从事技术工作的真正职业态度。
    经验啊经验:以后千万不要想当然了,一定要求真务实!一定不要偷懒!一定要阅读Oracle最新的安装文档!
    更再次说明:安装RAC其实不需要你懂多少Oracle数据库,但如果你不懂网络,你肯定装不好RAC!
  4. 更大的错误还在后头呢!
7 分享
breakenarrow stomp Seven Solaris winston_luo pxboracle talentmsy
pxboracle

pxboracle

官方文档还是最权威的。
0 赞 2014-09-04 09:24
talentmsy

talentmsy

羅老師,第4點沒下文了嗎
0 赞 2014-10-13 19:12

要回复文章请先登录注册