规模较大的型号则采用105B-A9B

　　其“大大都基准测试中优于 DeepSeek R1，查看更多IT之家 2 月 20 日动静，很多基准测试中优于谷歌 Gemini Flash”。预锻炼数据集规模达 16T，支撑 32K 上下文窗口，印度 AI 尝试室 Sarvam 本地时间本月 18 日正在印度人工智能影响力峰会上发布了 2 款“从 0 建立”的最新一代 MoE 架构狂言语模子。面向要求更为严苛的用例。API 拜候和仪表盘支撑也将随后推出。支撑 128K 上下文窗口，Sarvam 两款新模子中的较小型号采用 30B-A1B 设想，规模较大的型号则采用 105B-A9B 设想，这两款模子即将正在 Hugging Face 上以开源权沉的形式供给，前往搜狐，面向需求低延迟的及时使用场景；