抱抱脸模型TOP榜,我现在只服yuxinlu1

 人参与 | 时间:2026-06-29 11:21:38

听雨 | 发自 凹非寺 | 量子位公众号 QbitAI

在一众科技大厂林立的抱抱榜现环境中,一位个人开发者竟然强势杀入 Hugging Face Models Trending 榜前列?脸模

这看似普通的一天,当我像往常一样浏览 Hugging Face 的只服热榜时,景象却令人震惊。抱抱榜现

榜首是脸模智谱最新开源的 GLM-5.2,作为老熟人,只服其 6 万+ 的抱抱榜现下载量虽高但属意料之中。

紧随其后的脸模是百度近期悄悄开源的 无限 OCR,凭借单次解析 40+ 页文档的只服强大能力,下载量也攀升至 7 万。抱抱榜现

然而,脸模视线向下,只服一个名为 yuxinlu1的抱抱榜现个人账号赫然出现:

嗯……嗯?!

更令人咋舌的脸模是,该账号一举占据了两个席位。只服

查看最新数据,下载量分别高达 20.7 万53.6 万。这究竟是何等“神仙”模型?

甚至在上周,这位个人开发者的模型一度霸占 Hugging Face 榜首,力压 GLM-5.2。连智谱负责人都在 X(原推特)上公开推荐:

在智谱、百度、Qwen、NVIDIA 等巨头名字之间,一个个人开发者账号硬生生挤进 TOP 行列,且下载量惊人。

不禁让人好奇:luyuxin 究竟是谁?为何能量如此巨大?

“素人模型”强势冲榜

此次 Hugging Face 热榜的前排,基本被大厂、明星团队及热门赛道占据。

例如智谱的 GLM-5.2(753B 超大参数,国产明星大模型);百度 Unlimited-OCR(踩中 OCR 与文档理解热点)。

此外还有 Qwen 的 AgentWorld、英伟达的 LocateAnything、微软的 FastContext。

国产开源大模型熟面孔也悉数在列:MiniMax M3、Kimi-K2.7-Code、DeepSeek-V4-Pro。

图像生成领域,新模型 Krea-2-TurboKrea-2-Raw也在榜上。

然而,其中竟夹着两个 luyuxin 的 12B GGUF 模型

不……luyuxin 你也太醒目了吧……

仔细研读,这两个新模型的核心逻辑是将 Fable 5的编程推理能力,“蒸馏”进一个可在本地运行的 Gemma4-12B小模型中。

  • 极低门槛:仅需 4.5GB 显存即可运行。
  • 完全本地化:支持离线、零 API 成本。
  • 硬件友好:普通玩家的一张消费级显卡,甚至一台带统一内存的 Mac 即可轻松驾驭。

双版本分工明确

这两个模型在功能上各有侧重:

V1:Coder 版
主打代码编写、解题及生成可运行代码。

  • 训练数据:基于“可验证”的代码推理。每条思维链对应的代码必须真实运行测试并通过。
  • 数据来源:主要源自 Cursor 的 Composer 2.5 及 Fable 5。若 Composer 2.5 出错,则由 Fable 5 重新推理,生成新的推理链与正确代码。
  • 表现:V1 发布后,曾连续多日霸占 Hugging Face Trending 榜首。

V2:Agentic 版
增加了多步工具调用能力,可作为本地 Agent 使用,具备自主阅读、推理、执行及验证的能力。

  • Benchmark 测试:在 tau2-bench 的 telecom 子集上,基座 Gemma-4-12B 得分 15%,而 V2 版得分高达 55%,性能提升约 3.5 倍

注:作者坦言此为本地自测、单一领域、20 个任务的相对值,虽不及官方榜单,但与前沿大模型仍有差距。

数据重建与质量控制

作者透露,Fable 5 后来被下线,仅保留其个人数据集中的“原始”推理过程。对于社区贡献数据中缺失的 reasoning 部分,他改用 Claude Opus 4.8 (xhigh)重新生成并逐一补全。

他承认重建轨迹“可能与原版 Fable 5 有出入”,但这在当时是唯一可行的方案。

在 Discussion 中,作者透露微调数据仅约 1 万条 examples。他强调:数据量并非关键,真正核心的是数据质量、筛选与验证。

为何能爆火?“本地能跑”是硬道理

该模型在 Hugging Face 获得高热度,还有一个极其现实的原因:本地可运行

这两个模型均为 GGUF 量化版

GGUF 是 llama.cpp 生态中常见的本地模型格式,用户可使用 llama.cpp、Ollama、LM Studio、Jan 等工具直接加载。

这对编程场景极具吸引力:
1. 隐私安全:涉及私有项目和本地环境时,无需将代码上传至云端。
2. 成本为零:无需支付 API 调用费用。

硬件门槛极低

V1 模型卡显示,最小的 Q2_K版本仅约 4.5GB,拥有约 4.5GB 显存或统一内存即可运行私有、离线的编程助手。

  • 推荐配置Q4_K_M版本,大小约 6.87GB
  • 高质量版Q8_0版本,约 11.8GB

对于 V2(Agentic 版),由于压力测试未通过 Q2_K 版本,最小可靠版本从 Q3_K_M(约 5.7GB)开始,推荐版本仍为 Q4_K_M(约 6.87GB)。

未来计划:V3 与更大模型

作者已预告后续计划:
* V3:仍在开发中,将继续沿 12B 路线深耕 Coding + Agentic 方向。针对 V2 在 tau2-bench telecom 上出现的“过度尝试、反复 retry”问题,V3 将通过更多训练进行优化。
* 更大版本:正在开发 Qwen3.6-27B版本,将同一套 Coding + Agentic 配方应用于更大底座,服务于显存更宽裕的用户。

一个人,40 小时,杀进大厂中间

单枪匹马冲上热榜,累计下载量超 70 万,在一众大厂机构间杀出重围。

这位作者究竟是何方神圣?

量子位联系到作者后,得知了他的故事。

他叫 逯雨鑫,目前是美国一所高校在读的 AI 方向研究生。本科就读于数据与商业分析专业,期间还专门补充了全栈开发技能,涵盖前后端、软件开发及数据处理。

纯自费的个人项目

这两个爆火模型并非他的主业,而是纯自费的个人项目。

“开源这东西其实只是花钱,并不会让你有任何收入。”

他很清楚这一点,因此做 V1 的最初动机是“自我提升”

学校教授的知识更新滞后(仍讲两三年前的内容),而 AI 领域日新月异。他干脆通过该项目逼迫自己追赶最新技术。

  • 成本:烧掉整整一个 Claude Max 20× 套餐。仅 V2 的开发就耗时 40 多个小时。
  • 流程:合成数据、手动清洗、训练、评测、再训练,几乎全由一人承担。
  • 硬件:使用一张 RTX 5090(32GB VRAM),配合约 96GB 本地 SSD,实际可用资源约 128GB。

对个人开发者而言,这不算差,但与大厂和 AI Lab 的算力池完全不在一个量级。

数据处理比训练更耗时

逯雨鑫表示,最耗时的环节并非训练,而是数据处理

Agentic 数据中,真实对话往往很长,一个任务可能包含十几步、数千甚至数万 token。但受限于显存,训练时一次最多只能输入 2048 token

为此,他采用了类似“滑动窗口”的处理方式:在多轮会话中,以最近一次用户消息为锚点,围绕一次工具调用,将上下文裁剪至预算以内。

为何选择 Gemma 4-12B?

V1 和 V2 均以 Gemma 4-12B为底座。

选择它并非因为容易适配(相反,Gemma 4 格式特殊、工具协议复杂,客户端支持不完善),而是出于以下考量:

  1. 挑战自我
  2. 普惠性:12B 尺寸极具吸引力。量化至 3bit 左右后,许多 8GB 统一内存的 Mac 用户也能运行,并留出上下文窗口。

“我知道很多人使用的电脑还是 8GB 左右的统一内存。所以我想在最大可能的参数量下,让更多人使用到。”

逯雨鑫将本地模型的价值总结为两个词:隐私、免费

他认为,许多用户仅需 AI 帮助整理文件、处理数据、制作 PPT 或体验 Agent,并不愿每月为 Claude、GPT 付费。

“人可能就是想玩一玩,为什么非得要收费呢?”

社区互动与意外走红

V1 发布初期,他并未关注榜单,仅在模型卡中写道:若大家喜欢、下载量和点赞多,便继续做 V2。

没想到两三天后,模型排名从不知名跃升至第八;睡一觉醒来,竟冲到第一。

随后,评论和 Issue 大量涌入。他几乎每条必看,高峰期每天花费 3-4 小时在 Hugging Face 上回复问题、测试用户反馈并告知结果。

“社区有需求,我是真的在去做,这才是最关键的。”

意外发现:他还爱看网文?

在 Hugging Face 上,逯雨鑫共发布了 9 个公开模型。除了两个爆火模型,他还做过“直接蒸馏 Claude”的模型。

例如 gemma-4-12B-it-Claude-4.6-4.8-Opus-GGUF,这是一个通用版 Gemma4-12B 蒸馏模型。它不限定于编程,旨在将 Claude Opus 的回答风格、推理习惯及 Thinking 能力压缩进 12B 本地模型中。

另一个模型则基于 JetBrains 的编程模型 Mellum2,专注于推理蒸馏。

但继续往下看……

等等,怎么还有网文的微调模型?

好家伙,还分了四个题材,全是基于 Qwen3.6的中文网文 LoRA。

逯雨鑫透露,这其实是他涉足 Hugging Face 模型的入口

因为他本身就喜欢看小说。追更未完结小说时,读者焦虑,作者日更辛苦。于是,他想做一套免费的小说生成 Pipeline,通过不同风格的中文小说 LoRA,让作者用 AI 提速,读者也能更快看到内容。

但由于中文小说 LoRA 在 HF 上并不热门,后来他发现用户更关注 Coding 和 Agentic,于是方向逐渐转向了现在的路线。

给其他开发者的建议:真诚与坚持

当被问及对其他个人开发者的建议时,逯雨鑫的回答朴实而深刻:

1. 真诚
不要夸大模型能力。哪里强、哪里弱,都要说清楚。

“你要如实告诉大家。我骗你说我这有多强,但真实使用下来出现很多问题,下次我一发东西,你就不相信我了。”

2. 坚持
开源作者必须接受:你一定会遇到不好的声音。

模型火了之后,逯雨鑫也遭遇过质疑,但他选择坚持。在他看来,开源之路本就艰难:
* 登顶 Hugging Face 热榜不会直接带来收入。
* 更多时候,是自己花钱买算力、花时间处理数据、回复评论、修 Bug,还要面对少数负面声音。

ADHD 带来的独特优势

支撑他一路做下来的,还有一种个人的工作节奏。

逯雨鑫提到,自己患有 ADHD(注意力缺陷多动障碍)

过去,这可能意味着难以长期按部就班地推进一件事。但在 AI 这个变化极快的领域,快速切换兴趣、迅速进入 Hyperfocus(超聚焦状态),反而成了某种优势。

他甚至认为:“AI 时代是 ADHD 的天下。”因为当一个方向凉下来后,如果还一直钻在里面,等再转去学新的东西,可能已经晚了。

结语:个人开发者的机会

聊到最后,我们抛出了最初的问题:

作为个人开发者,凭什么能在大厂中间挤进前排?

逯雨鑫的回答很中肯:

他认为大厂当然能做得更好,拥有更多研究员和更强算力。但大厂发布开源小模型,往往承担品牌宣传、API 引流等商业目标;而个人开发者没有这些包袱,反而可以更专注地解决一个具体痛点

“我很高兴,但不是说我真的全面打败了他们,只是可能更认真一些。”

在他看来,这正是个人开源作者的机会:不必做全能模型,而是把一个足够具体的问题做到极致好用。

如果你想体验这款本地模型,链接如下:

温馨提示:目前最适配的平台是 llama.cpp,优先推荐大家使用。

HF 地址:https://huggingface.co/yuxinlu1

顶: 15331踩: 848