多个节点连接组成集群
如果你试图部署满血版 Deepseek R1 或者任何参数量大于 64 * 8 = 512B 的大语言模型,那么必须使用多个服务器通过高速网络连接纳管到一起使用。
模型以及其需要的资源:
- DeepSeek R1 671b 满血版:由于910B 只支持 BF16 和 INT8(w8a8),所以对于真正的满血版(BF16)需要 671 * 2 = 1342,再加上性能损耗所以最少需要4台Atlas 800。
- Deepseek R1 671b 满血版 Int8 量化: 其需要至少两台 Atlas 800(16 * 64GB) 。
- 一般小于 450B 的模型均可用单台服务器部署推理。
很多情况下,如果我们只是做个Demo演示,那么可以使用家用/机房的 2.5G/10Gbps 交换机来组成集群,但是这种情况下搭建的集群同步速度非常缓慢,部署的模型推理速度远低于一般自然人的文字输出速度,所以基本没法用。如果要私有化部署大模型用来生产的话,必须有1台超过200Ge的交换机做 Peer-Link。
实际上,当你有实体华为昇腾服务器的时候,可以看到服务器背板的下侧有 8*(100Ge光纤*2),这些光口就是用来连接高速交换机的。交换机需要一些配置和调试才能使用,交换机的配置和调试工作一般是专业的交付人员做的,这里做罗列的提示:
- 配置 VLAN
- 配置 Roce:指 RDMA 参数面网络,具体内容不清楚。
这样交换机的配置就结束了,下面就是到服务器侧。
服务器的互相连通性配置有以下步骤:
- 使用 hccn_tool 交换机上配置的VLAN 为每个NPU设置 ip。
- 使用 hccn_tool 测试联通性。