DRAM造成当机? 微软建议PC制造商采用ECC内存
根据微软(Microsoft)内部一份不公开的白皮书指出,桌上型和笔记型计算机可能需要采用错误修正程序代码(error-correcting code,ECC)内存,以解决单位元(single-bit)内存错误这样的日益增加的系统当机问题。该公司也在其WinHEC会议的座谈会上提出了这个问题,不过指出其有关系统故障的数据仍不明确。

微软约花了4年的时间透过其在线当机分析(Online Crash Analysis,OCA)工具收集数据,这些数据向微软的网站报告了系统所出现的当机现象。大约18个月以前,微软开始跟系统和芯片制造商分享OCA数据和上述的白皮书。而有消息指出,该白皮书的研究显示在DRAM中的single-bit错误率是造成系统当机的10大原因之一。

不过微软强调其有关系统当机的数据不能做为定论,因为OCA并没有针对出现当机的系统类型、以及些系统所采用的内存类型提供足够的数据。而为了增强OCA工具的性能,微软正要求OEM协助提供更多的数据,并考虑在桌上型计算机和笔记型计算机中采用ECC内存。

目前ECC内存广泛被用于个人计算机服务器,但迄今为止,桌上型计算机、笔记型计算机和许多芯片制造商都在抵制ECC内存,因为它会在模块上增加额外DRAM芯片,因而增加成本,并且要升级芯片组中的内存控制器。

在WinHEC上,座谈会听众中的一些系统制造商表示支持采用ECC内存的行动,但DRAM制造商则在座谈会中仍抱持怀疑态度。

“我认为问题很严重,”惠普(HP)的x86服务器部门工程师Jeff Galloway表示,微软已经向他展示了在HP计算机上系统当机的数据,看来就是源于single-bit DRAM错误;而且他补充指出,这些当机的状况是发生在不执行Windows Server操作系统的计算机上。

Galloway还表示:“整个产业要对此有所作为。微软透过Windows Server标志的认证,将ECC内存应用到服务器之中,我认为现在也应该针对桌上型计算机和笔记型计算机采用相同的策略。”“像这样的座谈会是我们让OEM参与我们将来要做的工作的方式之一,”主持座谈会的微软Windows Server部门首席程序经理Son VoBa表示:“ECC可能是解决问题的唯一途径。”

single-bit错误的原因通常可以追溯到中子辐射(neutron radiation)的影响,这种宇宙射线(cosmic rays)会冲击DRAM中的每一个电容器,因而改变它们的电荷状态。不过DRAM制造商表示,那种影响实际上已经随着时间的推移而逐渐减少,并且错误可能来自包括芯片组在内的各种各样干扰源。

“在过去的几代制程技术中,我们已经看到了软错率(soft error rates)的下降,”内存供货商美光(Micron)的市场开发副总裁Dean Klein表示。此外,包括三星(Samsung)和奇梦达(Qimonda)在内的DRAM制造商还指出SDRAM和DDR1内存,提供了笔记型和桌上型计算机不需要的ECC性能,因此当针对目前的DDR2内存来设定标准时,工程师也省略了ECC内存以节省成本。

一家内存制造商建议,较好的方式可能是在正在订定中的DDR4接口标准中,建置一种重试机制(retry facility)。一位三星的发言人透露,DDR4工作小组已经初步讨论了一种监测内存I/O接口的功能。

美国一家研究机构Envisioneering的分析师Peter Glaskowsky则表示,微软早在1990年代中期就说服OEM采用ECC来克服软错,但却被拒绝了,因OEM不愿意为此负担成本,也造成由Windows故障造成的系统当机比由DRAM软错造成的系统当机案例要多。

Glaskowsky补充,目前Windows操作系统越来越稳定,因此微软重提上述议题确实有其意义所在。然而这次还不清楚软错问题是否已重要到足以让OEM做出改变。

 
北京骏一在线电子科技有限公司版权所有(京ICP备05058055号)
联系电话:010--51296615/25
网站任何技术问题,请联系postmaster@neicun.com.cn