为什么网络工程师如此纠结于虚拟化管理?

  网络工程师很讨厌被当水管工人用——特别是在虚拟化管理方面。毕竟,支持虚拟化流量比物理线路要复杂很多。系统团队了解虚拟化环境的复杂性,但是有时候没有意识到网络管理员在虚拟化网络管理中的作用。这种认识的差距会造成故障修复策略和网络架构效率低下且不适合在虚拟化环境中使用。

  虚拟化架构师Bob Plankers在美国中西部一所综合大学中遇到了这个问题,他着手使两个团队(系统和网络)沟通,用管理工具来解决问题。最终,他们确定一种管理虚拟化环境的新网络架构和高效方法。

  在虚拟化管理方面,网络团队和系统团队之间确定存在隔阂吗?

  Bob Plankers:绝对是这样的,虚拟化或系统人员都没有把网络人员当回事。在传统数据中心模型中,工作负载停留在一个地方,一切都是静态的,网络团队也是能够发挥作用的;但是在实现了vMotion时,在数据中心内移动VM,而系统人员不知道,这对他们是一种困扰。我不想把网络团队比作水管工人,但是突然流量从一个地方转到另一个地方,他们就不知道发生了什么。所以,网络人员不理解虚拟化带来的变化,也不理解系统人员所做的操作。

  但是,系统人员也不理解为什么网络人员会关心这个问题。他们只是将网络看作是连接工具。他们认为,“有一条线路连接我的数据中心,所以我在其中部署了ESX主机,然后我会将一台主机部署在这个位置,”他们完全不知道连接交换机所需要的基础架构,也不清楚所需要的带宽。他们只是将它看作用之不尽的服务,我认为这是一般网络人员值得骄傲的荣誉,但是,这也是两个团队必须进行沟通的地方。

  系统人员必须注意是否有足够的容量,对吗?

  Plankers:是的,一定要考虑。虚拟化中有两种容量需要考虑。从外部看,虚拟机作为服务器会在网络上产生流量,然后VMware 集群中vMotion和集群内还有通信。vMotion确实是在使用网络。如果您有256GB物理内存,希望将这块256GB的内存快速复制到其他位置——这个过程会产生大量的流量 。此外,VMware明确规定了在使用vMotion时ESX主机之间的延迟限制。在这之间不允许部署路由。

  问题是,虚拟化人员事先与网络人员就他们的网络设计进行沟通,还是直接将它部署到网络?在许多情况下,这个环境是平衡增长的,所以您必须部署一两个虚拟化主机,然后想,“这是很棒的工具。我省了很多钱。”因此,您会添加第三、第四个主机,但是很快就会出现空间不足了,所以他们必须分散在整个数据中心中。

  您本身的环境是怎么样的?

  Plankers:我们使用的是戴尔服务器——只有机架式服务器,没有刀片服务器。此外,我们还使用思科网络产品。我部署了两个VMware vSphere集群。一个有10台主机,另一个有8台主机,以此作为500台虚拟机的物理宿主。

  这是很大的环境。您与网络团队有交流问题吗?

  Plankers:是的,去年8月份我们举行了一个网络技术领域活动日(由网络博主参加的会议),会议中只有我自己是系统人员,其他11位都是网络人员。有一个Force10的人想知道系统人员进行了什么操作,如何进行这些vMotion部署,他的表现是想要说:“我不理解他们为什么要这样做!”所以,我举手并回答:“您想知道原因吗?”很明显,这时网络人员完全不清楚为什么系统人员要做这些事情,由于被蒙在鼓里,所以他们感到有些恼怒。而另他们更愤怒的是他们被看做管道工人了。

  我认识到,我必须和网络人员进行沟通。所以我们现在启动了一个项目,将虚拟化主机连接修改为1GB。当您移动VM消耗了256GB或512内存时,主机会变大。在虚拟化中,少量大型主机的费用要大于小型主机。但是,随着主机的增大,vMotion处理速度也会变慢。如果因为主机遇到硬件故障将它清除,你的速度需要提升。所以,我们认为,将所有设备部署到数据中心的机架中会提升性能。我们会部署一个10GB顶级机架,然后将所有集群内流量都限定在这个交换机之内,这样它就不会影响到网络的其他部分了。经过这样的修改,既能让网络人员满意,我也会满意,因为我们有了10GB连接。这是与人合作的最佳结果:双赢。

  这意味着网络团队获得到vSphere环境内部流量的管理权限吗?

  Plankers:不完全是。他们不会管理任何一个分布式交换机或类似的组件,但是他们确实能够访问这些设备。跨团队交流的另一个结果是,网络团队能够了解VM的位置与所在主机。几个月之前,我们遇到了一个问题,而如果他们能够访问数据,他们就能够帮助我们分析问题,而不是只能看我们分析。他们有监控和管理工具,我也有自己的工具。两个团队仍然是独立的,但是现在我可以查看他们的路由器日志,所以这是一个更加统一的工作方式。

  您允许他们访问您的VMware吗?

  Plankers:他们能够访问vCenter客户端,能够查看日志。此外,我还教他们如何查看网络配置。他们没有权限修改配置,因为我希望他们将修改要求告诉我——就像我也没有权限修改他们的交换机和路由器配置一样。

  是否可能转到一个统一的第三方联合管理工具,能够显示物理与虚拟环境可用资源?

  Plankers:绝对可以。Xangati的一些面向网络的跨平台工具,它们能够从各种数据源获取数据,包括物理交换设备,所以您能够以端到端的方式监控虚拟机。我们已经对它进行研究,但是对于我们而言,存在预算问题。

  Xangati很好,但是在许多情况中,有一些工具供应商声称他们能够管理虚拟化,但是与VMware产品的原生支持相比,它只是一个有限的插件。然而,您必须问自己,“是应该使用一个能够解决所有问题的工具,还是应该使用两个真正擅长解决某个问题的工具?”

  Nexus 1000v能够增强网络工程师对虚拟化环境的控制,您对它有何看法?

  Plankers:对于我们而言,它会增加成本;我们不需要它的功能,所以我们并没有部署这种设备。在一些地方,它能够帮助网络人员解决一些问题,使他们能够真正控制虚拟交换机,但是我认为每一个组织都有其自身风格和处理问题的方式。对于那些尝试部署这种设备的人,他们可能首先应该进行一些交流。

  应用程序性能通常由网络人员负责控制。如果他们无法控制虚拟网络,那么他们又如何能够解决性能问题?

  Plankers:他们无法做到。人们如何能够管理一些不受控制的设备?如果他们负责管理性能,那么他们需要有能够监控设备的工具,否则他们无法管理性能。

  在您的环境中,由谁来负责管理应用程序性能?

  Plankers:对于我们而言,这是一种分层的设计。我们有网络人员、存储人员、服务器或虚拟化人员,我是他们的沟通桥梁。然后,系统管理员是我和应用人员的沟通桥梁。当然,我们还有应用人员。如果应用程序出现性能问题,那么涉及的人员会很多。

  在我们的特定环境中,很有意思的是,当虚拟机变慢时,应用人员会指责虚拟化人员;然后我会指出,虚拟机变慢是由于存储变慢造成的,而存储问题可能是由网络问题引起的。

  对于我们,我实施的任何性能工具都必须共享给所有人,所以应用程序管理员、存储管理员和网络人员都需要查看数据。

  原来,网络工程师会使用VLAN划分流量和保证流量安全。但是虚拟化环境的情况显然是不同的。您如何解决这个环境中的流量划分和安全性问题?

  Plankers:我们一直在虚拟交换机上使用VLAN功能。我们要么使用这种方法,或者在主机上安装大量的网卡。对于我们,如果VLAN分片足够多,能够满足安全人员和网络人员在上行链路和后台中断中的要求,那么也就符合我们的要求。然后,我只需要在虚拟交换机上配置VLAN功能。

  网络人员不喜欢自动化,特别是在缺少细致管理的时候。您如何解决这个问题?

  Plankers:对于系统人员,自动化是荒谬的;对于网络人员,他们的态度似乎也是不接受的。如果系统人员遇到问题时,他们会责怪网络,而自动化会使问题变得更糟糕。

  自动分配VM可能非常麻烦,但是一定程度的自动化能够帮助我们,还节省时间。我们必须进行监督,避免出现问题。如果防火墙规则会自动修改,安全人员则需要重新确认,保证它的行为是正确的。自动化不能够代替审核过程。事实上,它需要进行更多的审核。

  您使用了VMware内置的防火墙吗?还是使用了第三方的安全组件?

  Plankers:我将防火墙设置交由网络人员负责。他们拥有非常成熟的网络设备防火墙解决方案(使用思科ASA防火墙)。我不想彻底改变所有的一切。由于需要经过一定的更换周期,而且现在我们正在相互沟通,所以我们可以就这些问题展开讨论。我们可能会与虚拟防火墙vShield的相关人员讨论。Altor Networks有很好的防火墙。有一些人对它很感兴趣,因为它支持在虚拟机中实现防火墙。这意味着,可以通过设置,使虚拟机“X”不能与虚拟机“Y”通信,即使它们的位置在同一段网络和同一个VLAN中。这很适合共享托管的多租赁环境。