头条眼

Hugging Face发布新一代小参数模型 SmolLM3:128K上下文,双模式推理

近日,全球知名的大模型开放平台 Hugging Face 正式发布了其最新开源模型 ——SmolLM3。这款模型拥有30亿参数,尽管参数量相对较小,但其性能显著超过了同类的开源模型,如 Llama-3.2-3B 和 Qwen2.5-3B。

SmolLM3不仅支持128k 的上下文窗口,还能够流畅处理英语、法语、西班牙语、德语等多种语言的文本,标志着在小参数模型领域的又一重要进展。

image.png

多种推理模式,灵活应对需求

SmolLM3具备深度思考和非思考两种推理模式,用户可以根据实际需要灵活切换。这一创新设计让模型在处理复杂问题时,能够更好地发挥其推理能力,尤其是在需要深入分析的场景下。

开源架构,助力研究与优化

值得注意的是,Hugging Face 对 SmolLM3的架构细节、数据混合方法以及模型训练流程均进行了公开。这一开放策略将极大地促进开发者们对该模型的研究与优化,推动开源 AI 模型的进一步发展。

模型架构与训练配置

SmolLM3采用了先进的 transformer 解码器架构,借鉴了 SmolLM2的设计,同时对 Llama 进行了关键性改进,以提升效率和长上下文的表现。具体而言,模型使用了分组查询注意力机制和文档内掩码技术,以确保长上下文训练的有效性。

在训练配置方面,SmolLM3的参数量为3.08B,使用了36层的深度结构,优化器为 AdamW,经过24天的分布式训练,最终形成了强大的模型。

三阶段混合训练,提升能力

该模型的训练过程分为三个阶段,利用多种类型的数据进行混合训练。在第一阶段,模型通过网络、数学和代码数据的综合训练建立通用能力;第二阶段则引入更高质量的数学与代码数据;最后,在第三阶段中,模型进一步增强了对数学与代码数据的采样,提升了其推理和指令遵循能力。

随着 SmolLM3的发布,Hugging Face 再一次巩固了其在 AI 领域的领先地位。此模型不仅具备强大的推理能力,还以其高效的性能为开发者提供了丰富的应用前景。未来,随着更多的开源研究与社区合作,SmolLM3有望在各类应用场景中发挥更大的作用。

基础模型:https://huggingface.co/HuggingFaceTB/SmolLM3-3B-Base

推理和指导模型:https://huggingface.co/HuggingFaceTB/SmolLM3-3B

用户565455

位订阅者
  条评论

没有更多了

英国汇丰银行新掌门人首轮遴选,100余人里竟然挑不出合适的人

用户565455

次观看6天前

美媒警告美国:再不放弃在台海挑衅中国,美军必将在台海遭遇惨败

用户565455

次观看9天前

央企年度考核结果出炉 50家企业获评A级

用户565455

次观看13天前

李建兴:通缩对老百姓生活的影响,有五个方面,如何解决?

用户565455

次观看19天前

TCL数字标牌助力茶饮零售行业信息展示方式升级

用户565455

次观看21天前

黄瑞雪,赴任四川

用户565455

次观看28天前

城阳区召开“感受身边变化,共享美好生活”主题系列新闻发布会:基本医疗领域专场

有恃无恐

次观看刚刚

释永信出事四天后,又一位受害者出现了!竟意外牵扯出蓝台真面目

[旋木]

次观看刚刚

人从众𠈌!贵州旅游爆满,网友吐槽:哪是来避暑,分明是来攻城

嘴角上扬的幸福

次观看刚刚

计划10月开学!城阳区老年大学2025-2026学年招生简章发布

看门口那头神兽

次观看刚刚

曝释永信大哥发家史,现生意不景气,快撑不住了!

不该给你希望

次观看刚刚

福耀科技大学招生视频流出,一片忙碌景象,多份录取书通书发出

ヅLast

次观看刚刚

土耳其主攻线数据惨淡!巴拉丁罕见0分负效率,需要召回朱婷队友

妳6毛我6毛咱倆壹塊二

次观看1分钟前

城阳区多维并举绘就乡村振兴新画卷

我要去拯救奥特曼

次观看1分钟前

巴西女排输球不意外!4接应轮流打没效果,头号主力加比进攻0效率

为伤心为你痛

次观看1分钟前

权威发布 | 城阳8月文旅盛宴开启!啤酒、音乐、赛事、戏水,50+活动邀您即刻体验!

用户202207

次观看1分钟前

硅谷 AI 巨头都要搞闭源,中国为啥要开源?

Sharon

次观看2分钟前

城阳区:推动物业服务质效双提升

另类色彩▍colouro

次观看2分钟前

大学生球员再捡漏!意大利通报德格拉迪最新伤情,恐无缘世锦赛

我谈过最长的恋爱是自恋.

次观看2分钟前