剑客
关注科技互联网

楔 100︰ 更开放、 用途比以往任何时候更

在 facebook 上,我们重点建设我们的数据中心与完全开放和分类硬件由我们的工程师设计和通过计算项目 (OCP) 漉开源。通过分解我们的堆栈,我们可以替换硬件或软件有两种︰ 尽快更好的技术变得可用。这种方法使得跨计算、 存储和网络层令人印象深刻的性能增益。

由于对我们的数据中心的需求不断增长,我们不断追求的方法来处理数据,更有效和更快的速度。我们的战略是建立 100 G 数据中心和楔 100,我们的第二代机架顶部网络交换机,是帮助我们实现这一目标的关键部件之一。

今天,我们高兴地宣布,楔 100 规范已被接受入 OCP。该行业已经建立了一个强健的软件生态系统,在它周围,和我们希望此加入社区将加快创新步伐,并允许其他人给他们的数据中心以及带来 100 G。

在这篇博客,我们将概述当前的硬件和软件生态系统,和我们将分享一些我们在生产中使用楔形 100 的经验。

在 Facebook 楔 100

在 facebook 上,我们在生产环境中,我们使用楔形 100,我们继续在规模部署跨我们的数据中心。它同时也让我们能够保持向后的兼容现有 40 G 设备是我们 100 G 数据中心网络战略的一个组成部分。在软件方面,我们继续到 useFBOSS andOpenBMC,我们自己的网络堆栈和底板管理实现,使我们可以灵活地快速迭代和引入新的功能和创新我们的网络。

创建楔 100 是一个复杂的过程,但我们能够循环在硬件和软件上与信心因为创建和部署楔 40 我们借鉴。我们重复使用许多相同的硬件组件和关键更改地址痛点我们感到与楔 40。在楔 100,我们也运行相同的 FBOSS 软件楔 40 起,但我们把它支持新的平台,用 100 G ASIC 芯片和光学扩展。

硬件更新

我们建立了楔 100 以 COM 快递类型 6 模块在紧凑的外形 (95 毫米 x 95 毫米) 为 microserver;这兆头 100 G 和更高的速度开关平台。楔 100 还支持 COM 快递模块形式因素 (95 毫米 x 125 毫米),允许进行灵活的设计更先进的 Cpu 应用都需要进行特殊的情况下。

可维护性是我们在 Facebook 的重点。我们有数以千计的楔交换机部署和仅几个数据中心的技术人员,这意味着我们需要能够维护和修理开关迅速、 轻松,没有任何工具。我们作出重大的改善,对操作性能的带楔 100 的开关。顶盖现在可以不用工具,提供便于接近开关内部为我们数据中心的技术人员。热插拔风扇托架现在可以通过删除拇指螺钉按与剪辑上删除。此外,数据中心的技术人员可以轻松地查看风扇托盘状态通过状态指示灯旁边每个风扇托架。如果需要这些组合允许非常快速调试和现场更换。

对于楔 100 在 Facebook 的数据中心中的上行链路,我们使用光学小写温度限制为 55 C,而不是在标准 70 C 商业的温度范围内来。我们把大量的精力投入系统的热设计,包括一个更多风扇托架,空气挡板分隔 PSU 和主开关板和前面板打开设计最大化利用空气流之间的空气路径添加。

楔 100 机箱被专为工业标准 19″机架,所以它可以轻松地通过网络社区。然而,我们的数据中心 useOpen 架,和我们也想要动力楔 100 使用高度有效、 钛额定开放机架 V2 电源供应单位通过 12V 母线机架后部。因此,我们设计一个 21″开放式机架适配器托盘,帮助山楔 100 这种机架中。我们还设计了宋卡王子大学直通到楔 100 主要开关板的 12V 输入连接 12V 母线的模块。它是在同一个窗体因子作为标准的 ac/DC 电源,并且包含一个 12V 的热插拔控制器。

您可以查找楔 100here 的设计规格。

楔 100︰ 更开放、 用途比以往任何时候更

Wedge100 Open Rack V2 Adapter

软件更新

Wedge100 我们软件堆栈是几乎相同的楔 40 的堆栈。我们运行同一 FBOSS 交换和路由选择守护进程,和我们使用相同的工具集来管理生产中的交换机。还有总是工作,需要做来支持一个新的平台,但 FBOSS 的指导原则之一就是打造我们需要为我们的环境的最小功能集。这使我们能够保持我们的代码精益和它很容易适应新的环境和平台,而不是从零开始或管理并行代码基地。得到的我们支持的协议集 — — NDP、 DHCP、 ARP、 LLDP、 ECMP、 ICMP — — 和我们需要操作的功能 — — 热启动 — — Wedge100 的工作更多的迭代的锻炼是因为我们已经在生产中运行楔 40 的经验。这使我们能够打到地面上的 Wedge100 项目运行和使用它作为一个机会来强化我们 FBOSS 软件堆栈。

因为我们一直在管理楔 40 多岁在近两年来生产,基础设施在的地方,我们开始几乎立即在生产环境中测试 Wedge100。运行开关供应生产交通给我们我们需要作出的更改的最佳信号。事实证明,我们发现我们最大的挑战是在业务方面 — — 特别的配置,资源调配,和在我们的网络并行管理的楔 40 和楔 100。在 Facebook,FBOSS 团队编写执行数据包转发和我们用来管理交换机操作上的工具套件的这两个软件。正因为如此,我们有一个积极的反馈循环,和最后,经验教训在生产通知软件 — — 甚至硬件 — — 决定。这种方式,我们得以专注于我们实际需要并获得楔 100 交换机转发生产交通非常快的特点。

在构建楔 100 时,我们面临的另一个挑战使我们的软件平台更加灵活。当我们部署楔 40 时,我们受益于这一事实的支持所需的配置集被漂亮限制,而我们可以轻易地支持他们。与楔 100,这不是这样。我们想要在我们喝的是楔 40 的网络中任何位置下降楔形 100。下行速度和电缆类型可以不同。上行链路速度之间旧的和新的集群会有所不同。正确配置是 100 G 链接尤其重要,因为他们有很多较小的光功率保证金,可以带来更多的挑战,在建立联系并优化性能,需要更细致的配置比 40 G。支持这些新的环境需要从物理层一直到我们监测的堆栈的变化。我们扩大我们支持 SFF 天赋要能够通过改变电源类,CDR,速率-选择,在各种速度下运行 CWDM4 光学 FEC,预加重和其他动态地支持这些不同的设置。我们也重新制作大量的我们的配置和资源调配工作流必须能够支持所有这些可能性。

最后,拥有我们自己的软件堆栈使修复 bug 或 facebook 将功能添加到这些设备要快得多。例如,我们观察到那 100 G 光学实现更高的工作温度,所以我们改变风扇控制逻辑我们董事会管理控制器上,OpenBMC,以达到更好的热配置文件时,这些模块是本。其他时候,我们遇到了 microserver 的内核崩溃。因为我们有一个工程团队,管理我们自己的内核发布,我们可以利用他们的专长,调试的问题。拥有整个堆栈还允许我们去做其他有趣的东西,像简化设备维护程序通过修改这些交换机上的前面板指示灯的含义,根据我们得到的数据中心操作团队的反馈。

FBOSS 代码是所有开放来源和可用的 onGitHub。我们开源我们软件去年,既然有搬到一个连续的发布周期,自动推向 GitHub 的内部差异。如果你想要更多的了解我们正在,请签出代码。

硬件和软件生态系统

楔 100 交换机现在可作为商业产品 fromEdgecore 网络和世界范围内其渠道合作伙伴。Edgecore 的楔 100 32 X 是完全符合楔 100 OCP 规范和制造的 Edgecore 的母公司,智邦科技,还生产楔 100 为我们的网络部署。楔 100 32 X 硬件切换包括三年保修和附带诊断、 OpenBMC 固件和开放的网络安装环境普遍 NOS 装载机。

我们也见过浓厚的兴趣,从收发器供应商来限定他们在平台上的模块。为了满足这种需求,我们正在合作与新罕布什尔大学互操作性实验室 (联合国总部 IOL) 所以任何模块可以在他们的设施专业测试。联合国总部人工晶状体仍然是中立的、 基础广泛的测试及标准一致性为提供服务网络行业的领导者。

在软件方面,多个公司正在建设他们在楔 100 平台上的解决方案。在操作系统层上,我们有大开关网络和标准;和堆栈的上部,我们有 SnapRoute、 FRINX 和 Apstra。

  • 大开关网络一直持续到 driveOpen 网络 Linux (ONL),第一款开源的网络操作系统支持 originalWedge 40 和现在楔 100;Facebook 的 FBOSS 也是现在在楔 40 和很快楔 100 ONL 可用。ONL 是开放式计算项目的一部分,并支持 30 + 不同 OCP 和非 OCP 开放网络交换机。他们也藉此机会内部用作 ONL 大监测织物和大云织物其商业产品的基础。
  • 规范将 bringUbuntu 核心,他们新的云计算和物联网设备,到楔 100 平台操作系统。Ubuntu 核心可以运行不同的网络堆栈像 FBOSS 或 SnapRoute 的数量作为快照,并启用裸金属资源调配大软件像 OpenStack,Hadoop 和 Kubernetes 从机架顶部开关数据中心的计算层上。
  • SnapRoute 宣布可用性 ofFlexSwitch 软件在楔 100 平台上。FlexSwitch 是一个开源 L2/L3 网络堆栈可以跨多个硬件平台运行。它旨在通过提供一个完全可自定义和可编程的控制平面和提供了全面的框架来完成生命周期自动化和网络分析改变经济的网络操作。它是围绕概念的全模块化,促进办学理念的只有组功能网络的需要,而不是传统的一个尺寸适合所有方法。
  • FRINX 被集中在 integratingOpenDaylight,开源 SDN 平台,楔 100。他们正努力创造的受支持的预置的解决方案,用于数据中心部署,完全基于开放源码组件。
  • Apstra 经营上层与 Apstra 操作系统 (AOS),分布式操作系统,可以将用户的意图变为不断验证的基础设施的供应商无关。他们正在研究解决办法,可以管理堆栈基于 ONL 和 Snaproute,以及其他网络操作系统,可在早期 2017 年。

我们很高兴在开放网络硬件空间里,有这样一套完整和多样化的技术,我们会继续努力与其他公司对楔 100。明年年初,我们计划在展示这些网络的软件和硬件解决方案从 OCP 社区,包括那些建立在楔 100 和我们将继续与分类网络分享我们的经验。敬请关注 !

谢谢你对所有团队和对此项目作出贡献的人。

[剑客-翻译]

分享到:更多 ()

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址