多个节点连接组成集群

如果你试图部署满血版 Deepseek R1 或者任何参数量大于 64 * 8 = 512B 的大语言模型,那么必须使用多个服务器通过高速网络连接纳管到一起使用。

模型以及其需要的资源:


很多情况下,如果我们只是做个Demo演示,那么可以使用家用/机房的 2.5G/10Gbps 交换机来组成集群,但是这种情况下搭建的集群同步速度非常缓慢,部署的模型推理速度远低于一般自然人的文字输出速度,所以基本没法用。如果要私有化部署大模型用来生产的话,必须有1台超过200Ge的交换机做 Peer-Link。

实际上,当你有实体华为昇腾服务器的时候,可以看到服务器背板的下侧有 8*(100Ge光纤*2),这些光口就是用来连接高速交换机的。交换机需要一些配置和调试才能使用,交换机的配置和调试工作一般是专业的交付人员做的,这里做罗列的提示:

这样交换机的配置就结束了,下面就是到服务器侧。


服务器的互相连通性配置有以下步骤:

  • 使用 hccn_tool 交换机上配置的VLAN 为每个NPU设置 ip。
  • 使用 hccn_tool 测试联通性。