头条眼

Hugging Face发布新一代小参数模型 SmolLM3：128K上下文,双模式推理

近日，全球知名的大模型开放平台 Hugging Face 正式发布了其最新开源模型 ——SmolLM3。这款模型拥有30亿参数，尽管参数量相对较小，但其性能显著超过了同类的开源模型，如 Llama-3.2-3B 和 Qwen2.5-3B。

SmolLM3不仅支持128k 的上下文窗口，还能够流畅处理英语、法语、西班牙语、德语等多种语言的文本，标志着在小参数模型领域的又一重要进展。

多种推理模式，灵活应对需求

SmolLM3具备深度思考和非思考两种推理模式，用户可以根据实际需要灵活切换。这一创新设计让模型在处理复杂问题时，能够更好地发挥其推理能力，尤其是在需要深入分析的场景下。

开源架构，助力研究与优化

值得注意的是，Hugging Face 对 SmolLM3的架构细节、数据混合方法以及模型训练流程均进行了公开。这一开放策略将极大地促进开发者们对该模型的研究与优化，推动开源 AI 模型的进一步发展。

模型架构与训练配置

SmolLM3采用了先进的 transformer 解码器架构，借鉴了 SmolLM2的设计，同时对 Llama 进行了关键性改进，以提升效率和长上下文的表现。具体而言，模型使用了分组查询注意力机制和文档内掩码技术，以确保长上下文训练的有效性。

在训练配置方面，SmolLM3的参数量为3.08B，使用了36层的深度结构，优化器为 AdamW，经过24天的分布式训练，最终形成了强大的模型。

三阶段混合训练，提升能力

该模型的训练过程分为三个阶段，利用多种类型的数据进行混合训练。在第一阶段，模型通过网络、数学和代码数据的综合训练建立通用能力;第二阶段则引入更高质量的数学与代码数据;最后，在第三阶段中，模型进一步增强了对数学与代码数据的采样，提升了其推理和指令遵循能力。

随着 SmolLM3的发布，Hugging Face 再一次巩固了其在 AI 领域的领先地位。此模型不仅具备强大的推理能力，还以其高效的性能为开发者提供了丰富的应用前景。未来，随着更多的开源研究与社区合作，SmolLM3有望在各类应用场景中发挥更大的作用。

基础模型:https://huggingface.co/HuggingFaceTB/SmolLM3-3B-Base

推理和指导模型:https://huggingface.co/HuggingFaceTB/SmolLM3-3B

用户565455

位订阅者

条评论

没有更多了

英国汇丰银行新掌门人首轮遴选，100余人里竟然挑不出合适的人

用户565455

次观看6天前

美媒警告美国：再不放弃在台海挑衅中国，美军必将在台海遭遇惨败

用户565455

次观看9天前

央企年度考核结果出炉 50家企业获评A级

用户565455

次观看13天前

李建兴：通缩对老百姓生活的影响，有五个方面，如何解决？

用户565455

次观看19天前

TCL数字标牌助力茶饮零售行业信息展示方式升级

用户565455

次观看21天前

黄瑞雪，赴任四川

用户565455

次观看28天前

城阳区召开“感受身边变化，共享美好生活”主题系列新闻发布会：基本医疗领域专场

有恃无恐

次观看刚刚

释永信出事四天后，又一位受害者出现了！竟意外牵扯出蓝台真面目

[旋木]

次观看刚刚

人从众𠈌！贵州旅游爆满，网友吐槽：哪是来避暑，分明是来攻城

嘴角上扬的幸福

次观看刚刚

计划10月开学！城阳区老年大学2025-2026学年招生简章发布

看门口那头神兽

次观看刚刚

曝释永信大哥发家史，现生意不景气，快撑不住了！

不该给你希望

次观看刚刚

福耀科技大学招生视频流出，一片忙碌景象，多份录取书通书发出

ヅLast

次观看刚刚

土耳其主攻线数据惨淡！巴拉丁罕见0分负效率，需要召回朱婷队友

妳6毛我6毛咱倆壹塊二

次观看1分钟前

城阳区多维并举绘就乡村振兴新画卷

我要去拯救奥特曼

次观看1分钟前

巴西女排输球不意外！4接应轮流打没效果，头号主力加比进攻0效率

为伤心为你痛

次观看1分钟前

权威发布 | 城阳8月文旅盛宴开启！啤酒、音乐、赛事、戏水，50+活动邀您即刻体验！

用户202207

次观看1分钟前

硅谷 AI 巨头都要搞闭源，中国为啥要开源？

Sharon

次观看2分钟前

城阳区：推动物业服务质效双提升

另类色彩▍colouro

次观看2分钟前

大学生球员再捡漏！意大利通报德格拉迪最新伤情，恐无缘世锦赛

我谈过最长的恋爱是自恋.

次观看2分钟前