910B | 马致良的blog

多个节点连接组成集群如果你试图部署满血版 Deepseek R1 或者任何参数量大于 64 * 8 = 512B 的大语言模型，那么必须使用多个服务器通过高速网络连接纳管到一起使用。模型以及其需要的资源： DeepSeek R1 671b 满血版：由于910B 只支持 BF16 和 INT8(w8a8)，所以对于真正的满血版（BF16）需要 671 * 2 = 1342，再加上性能损耗所以最少需要4台Atlas 800。下载地址：https://www.modelscope.cn/models/deepseek-ai/DeepSeek-R1-0528 Deepseek R1 671b 满血版 Int8 量化: 其需要至少两台 Atlas 800(16 * 64GB) 。下载链接：https://www.modelscope.cn/models/TensorLake/DeepSeek-R1-0528-W8A8 一般小于 450B 的模型均可用单台服务器部署推理。很多情况下，如果我们只是做个Demo演示，那么可以使用家用/机房的 2.5G/10Gbps 交换机来组成集群，但是这种情况下搭建的集群同步速度非常缓慢，部署的模型推理速度远低于一般自然人的文字输出速度，所以基本没法用。如果要私有化部署大模型用来生产的话，必须有1台超过200Ge的交换机做 Peer-Link。实际上，当你有实体华为昇腾服务器的时候，可以看到服务器背板的下侧有 8*（100Ge光纤*2），这些光口就是用来连接高速交换机的。交换机需要一些配置和调试才能使用，交换机的配置和调试工作一般是专业的交付人员做的，这里做罗列的提示：配置 VLAN 配置 Roce：指 RDMA 参数面网络，具体内容不清楚。 Wiki：https://en.wikipedia.org/wiki/RDMA_over_Converged_Ethernet 这样交换机的配置就结束了，下面就是到服务器侧。服务器的互相连通性配置有以下步骤：使用 hccn_tool 交换机上配置的VLAN 为每个NPU设置 ip。使用 hccn_tool 测试联通性。