头条眼
近日,全球知名的大模型开放平台 Hugging Face 正式发布了其最新开源模型 ——SmolLM3。这款模型拥有30亿参数,尽管参数量相对较小,但其性能显著超过了同类的开源模型,如 Llama-3.2-3B 和 Qwen2.5-3B。
SmolLM3不仅支持128k 的上下文窗口,还能够流畅处理英语、法语、西班牙语、德语等多种语言的文本,标志着在小参数模型领域的又一重要进展。
SmolLM3具备深度思考和非思考两种推理模式,用户可以根据实际需要灵活切换。这一创新设计让模型在处理复杂问题时,能够更好地发挥其推理能力,尤其是在需要深入分析的场景下。
值得注意的是,Hugging Face 对 SmolLM3的架构细节、数据混合方法以及模型训练流程均进行了公开。这一开放策略将极大地促进开发者们对该模型的研究与优化,推动开源 AI 模型的进一步发展。
SmolLM3采用了先进的 transformer 解码器架构,借鉴了 SmolLM2的设计,同时对 Llama 进行了关键性改进,以提升效率和长上下文的表现。具体而言,模型使用了分组查询注意力机制和文档内掩码技术,以确保长上下文训练的有效性。
在训练配置方面,SmolLM3的参数量为3.08B,使用了36层的深度结构,优化器为 AdamW,经过24天的分布式训练,最终形成了强大的模型。
该模型的训练过程分为三个阶段,利用多种类型的数据进行混合训练。在第一阶段,模型通过网络、数学和代码数据的综合训练建立通用能力;第二阶段则引入更高质量的数学与代码数据;最后,在第三阶段中,模型进一步增强了对数学与代码数据的采样,提升了其推理和指令遵循能力。
随着 SmolLM3的发布,Hugging Face 再一次巩固了其在 AI 领域的领先地位。此模型不仅具备强大的推理能力,还以其高效的性能为开发者提供了丰富的应用前景。未来,随着更多的开源研究与社区合作,SmolLM3有望在各类应用场景中发挥更大的作用。
基础模型:https://huggingface.co/HuggingFaceTB/SmolLM3-3B-Base
推理和指导模型:https://huggingface.co/HuggingFaceTB/SmolLM3-3B
用户565455
没有更多了
英国汇丰银行新掌门人首轮遴选,100余人里竟然挑不出合适的人
用户565455
次观看6天前
美媒警告美国:再不放弃在台海挑衅中国,美军必将在台海遭遇惨败
用户565455
次观看9天前
央企年度考核结果出炉 50家企业获评A级
用户565455
次观看13天前
李建兴:通缩对老百姓生活的影响,有五个方面,如何解决?
用户565455
次观看19天前
TCL数字标牌助力茶饮零售行业信息展示方式升级
用户565455
次观看21天前
黄瑞雪,赴任四川
用户565455
次观看28天前
城阳区召开“感受身边变化,共享美好生活”主题系列新闻发布会:基本医疗领域专场
有恃无恐
次观看刚刚
释永信出事四天后,又一位受害者出现了!竟意外牵扯出蓝台真面目
[旋木]
次观看刚刚
人从众𠈌!贵州旅游爆满,网友吐槽:哪是来避暑,分明是来攻城
嘴角上扬的幸福
次观看刚刚
计划10月开学!城阳区老年大学2025-2026学年招生简章发布
看门口那头神兽
次观看刚刚
曝释永信大哥发家史,现生意不景气,快撑不住了!
不该给你希望
次观看刚刚
福耀科技大学招生视频流出,一片忙碌景象,多份录取书通书发出
ヅLast
次观看刚刚
土耳其主攻线数据惨淡!巴拉丁罕见0分负效率,需要召回朱婷队友
妳6毛我6毛咱倆壹塊二
次观看1分钟前
城阳区多维并举绘就乡村振兴新画卷
我要去拯救奥特曼
次观看1分钟前
巴西女排输球不意外!4接应轮流打没效果,头号主力加比进攻0效率
为伤心为你痛
次观看1分钟前
权威发布 | 城阳8月文旅盛宴开启!啤酒、音乐、赛事、戏水,50+活动邀您即刻体验!
用户202207
次观看1分钟前
硅谷 AI 巨头都要搞闭源,中国为啥要开源?
Sharon
次观看2分钟前
城阳区:推动物业服务质效双提升
另类色彩▍colouro
次观看2分钟前
大学生球员再捡漏!意大利通报德格拉迪最新伤情,恐无缘世锦赛
我谈过最长的恋爱是自恋.
次观看2分钟前