Yesterday
Thought1d ago
Click to view

《Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer》,被视为“理论指导”时代的开启,是因为它解决了一个大模型工程中最昂贵的痛点:超参数调优(Hyperparameter Tuning)。以下是该论文的核心观点与实际应用价值的简要概括:

  • µP (Maximal Update Parameterization): 论文提出了一种名为“极大更新参数化”的方法。这种方法在数学上证明了,当神经网络变得无限宽时,存在一种唯一的参数初始化和缩放比例,能够保持学习动力学的稳定。
  • 超参数的稳定性: 在 µP 框架下,模型的最佳超参数(如学习率、初始化范围等)与模型规模(宽度)解耦。这意味着在一个只有 1 亿参数的小模型上表现最好的学习率,直接挪到 1000 亿参数的大模型上依然是最好的。
  • µTransfer (超参数平移): 既然超参数稳定了,我们就可以通过“小模型调参 -> 直接平移给大模型”的路径来训练,而不需要在大模型上进行昂贵的试错。
AI
This Month
Thought7d ago
Click to view

深度使用了 Karpathy 的 LLM Wiki,既尝试了火热的开源项目,也尝试写了 Skill,我的感受是:

  1. LLM Wiki 的渐进式披露思路和 Skill 一致,但作为知识库,知识的分层需要更多,尤其是类似个人知识库这种应用;
  2. 基于上一点,我尝试在 LLM Wiki 的基础上增加分层和聚类的模式,实际效果有限,仍少不了人为干预;
  3. LLM Wiki 强调了知识的链接,但知识之间的链接在很多场景下用处并没有那么大,双链笔记的发展现状也能说明这一点;
  4. LLM Wiki 在知识检索这一层没有做太多复杂的架构,因此只适合小范围的知识库。

结论:是个有趣的想法,于我而言,可以在我的 siyuan skill 基础上再叠加一些查询功能,把我的 siyuan 知识库作为 LLM 的 Wiki 来源。

AI
Thought12d ago
Click to view

OpenClaw 风评突然转负向了,但我一直认为 OpenClaw 的价值是:

  1. 入口增强:注重连接,连接现有的各类即时通讯软件,实现随时可用;
  2. 远程访问:对于无法 ssh 的家庭主机、不会 P2P 的普通用户,也可以通过 OpenClaw 实现远程控制;
  3. 降低门槛:对于大量不了解 CLI、不理解 Agent 的普通用户,了解到 AI 可以对自己的电脑做这么多操作(事实上很多编程软件早就实现了)。

问题也一直明确:

  1. 对话框的交互模式决定了,对于严肃的创作工作,无法有效进行结果确认、多轮微调;
  2. 作为一个 Agent,OpenClaw 的记忆优化、上下文管理、工具加载等,并不能算很优秀。

当然,只要社区足够活跃,这些问题也都有可能解决。目前 OpenClaw 做一个个人助手还是绰绰有余,等空了再发一篇文章,说说我用 OpenClaw 做了些什么。

产品思考AI
Thought13d ago

一个观点:AI 学不到我们在信息不完整的时候是怎么做出判断的,我们权衡了什么,放弃了什么,赌对了什么又赌错了什么。这些东西不在任何一个 token 里。它们是一手的,不可压缩的。

生态文明
小天

小天

拥抱 AI,保留人味儿

RSS 订阅
/sitemap.xml/feed.xml
文章
6
标签
4

热门标签