近期,腾讯正式发布了首款自研服务器星星海。这款服务器针对云端的计算、存储、网络等场景进行软硬件优化,使得基于星星海的云服务实例综合性能提升35%以上,其中视频处理速度提升40%,图形转码得分提升35%,Web服务页面QPS提升高达152%。
11月7号,在腾讯Techo开发者大会上,腾讯云专家工程师曾钦杵首次揭晓了星星海的研发历程。他介绍,星星海的设计研发着眼于解决云计算数据中心应用场景下传统OEM服务器存在的机型规模多样、创新节奏慢、成本压力大、引用周期长等局限性,能够满足超大规模、需求多样、高性价比以及安全可靠等需求。
曾钦杵介绍,自研发之初,腾讯就作了充分的考量来明确需求边界,并定义了目前符合腾讯主流业务的硬件系统。同时,星星海还系统地考虑了IDC基础建设及服务器硬件成本,能耗成本和运维成本。依托自主可控知识产权、自定义硬件、BMC与BIOS等相关固件,星星海支持不同供应商共同生产,拓展了更多关键器件直采的可能性,也能够满足数据中心对于服务器可控供应、快速交付、精简成本、可靠质量等方面的要求。
在硬件体系统方面,星星海采用可重构硬件系统的方式,进行模块化设计,以满足服务器设计多样化的需求,提升运营效率。统一的腾讯自研型服务器整机底座,能够兼容多种硬件平台,支持多代服务器产品,减少数据中心配件种类,有效降低运营成本,提升运营效率。在整机底座的基础上,通过可重构性模块组合,星星海可以覆盖绝大多数业务应用场景。
在运维方面,星星海实现免工具快速维护,能够大幅度提升运维效率,降低风险。在环境测试方面,腾讯云根据数据中心需求,强化相关测试标准,充分保证产品质量。截至目前,星星海的DOA(到货即损率)是零。
在系统散热方面,星星海通过精细化的仿真,针对CPU、DIMM、OCP、M.2/U.2等关键部件优化散热布局,精细风道管理。目前,星星海的系统风冷方案,可直接支持平台全系统的CPU。同时,腾讯云还将继续研究前沿散热技术,不止于追求散热器以及风扇的最优化。
在能耗优化及硬件防护方面,星星海针对主流的业务应用场景及系统级的能耗状况,优化特定系统部件的能耗效率,并对高功耗的模块进行分区域电流监控。以PSU为例,根据系统在主流业务的应用场景,确定系统功耗范围,与PSU厂商合作,进一步提高PSU部件在该范围的转化效率,从而降低整体系统在数据中心的能耗。针对主板进行HSC电源设计,提供远程AC cycle能力,简化运维操作,提升运维效率。
在故障收集方面,星星海实现多维度覆盖故障诊断,能够全面提升运维能力。从Boot阶段到runtime阶段,能够全维度收集所有故障信息,并远程进行精准定位与数据分析。
此外,在服务器大规模的设计测试与生产验收上,定义统一的质量测试方法与质量验收标准,充分保证服务器大规模上线的质量和交付能力。
据介绍,星星海将在今年正式应用于腾讯云及腾讯自有各业务场景。未来,腾讯还将会进一步拓展自主研发的范围,为客户提供更加安全高效的云服务,满足政务、金融、工业、电信、医疗等各领域企业的云上需求。