所有文章

This Month

Thought13d ago

Click to view

《Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer》，被视为“理论指导”时代的开启，是因为它解决了一个大模型工程中最昂贵的痛点：超参数调优（Hyperparameter Tuning）。以下是该论文的核心观点与实际应用价值的简要概括：

µP (Maximal Update Parameterization)：论文提出了一种名为“极大更新参数化”的方法。这种方法在数学上证明了，当神经网络变得无限宽时，存在一种唯一的参数初始化和缩放比例，能够保持学习动力学的稳定。
超参数的稳定性：在 µP 框架下，模型的最佳超参数（如学习率、初始化范围等）与模型规模（宽度）解耦。这意味着在一个只有 1 亿参数的小模型上表现最好的学习率，直接挪到 1000 亿参数的大模型上依然是最好的。
µTransfer (超参数平移)：既然超参数稳定了，我们就可以通过“小模型调参 -> 直接平移给大模型”的路径来训练，而不需要在大模型上进行昂贵的试错。

AI

Article·13d ago·9 min

《我们误解了这个世界》

书的内容是周国平和济群法师的对谈记录整理，实际上是一本佛学入门介绍书籍，给了我非常多新的视角。

Thought19d ago

Click to view

深度使用了 Karpathy 的 LLM Wiki，既尝试了火热的开源项目，也尝试写了 Skill，我的感受是：

LLM Wiki 的渐进式披露思路和 Skill 一致，但作为知识库，知识的分层需要更多，尤其是类似个人知识库这种应用；
基于上一点，我尝试在 LLM Wiki 的基础上增加分层和聚类的模式，实际效果有限，仍少不了人为干预；
LLM Wiki 强调了知识的链接，但知识之间的链接在很多场景下用处并没有那么大，双链笔记的发展现状也能说明这一点；
LLM Wiki 在知识检索这一层没有做太多复杂的架构，因此只适合小范围的知识库。

结论：是个有趣的想法，于我而言，可以在我的 siyuan skill 基础上再叠加一些查询功能，把我的 siyuan 知识库作为 LLM 的 Wiki 来源。

AI

Article·20d ago·8 min

我的 OpenClaw 在做什么

OpenClaw 的价值一直是一个便捷的入口，一个随时随地可以对话的个人助手。

Thought24d ago

Click to view

OpenClaw 风评突然转负向了，但我一直认为 OpenClaw 的价值是：

入口增强：注重连接，连接现有的各类即时通讯软件，实现随时可用；
远程访问：对于无法 ssh 的家庭主机、不会 P2P 的普通用户，也可以通过 OpenClaw 实现远程控制；
降低门槛：对于大量不了解 CLI、不理解 Agent 的普通用户，了解到 AI 可以对自己的电脑做这么多操作（事实上很多编程软件早就实现了）。

问题也一直明确：

对话框的交互模式决定了，对于严肃的创作工作，无法有效进行结果确认、多轮微调；
作为一个 Agent，OpenClaw 的记忆优化、上下文管理、工具加载等，并不能算很优秀。

当然，只要社区足够活跃，这些问题也都有可能解决。目前 OpenClaw 做一个个人助手还是绰绰有余，等空了再发一篇文章，说说我用 OpenClaw 做了些什么。

产品思考AI

Thought25d ago

一个观点：AI 学不到我们在信息不完整的时候是怎么做出判断的，我们权衡了什么，放弃了什么，赌对了什么又赌错了什么。这些东西不在任何一个 token 里。它们是一手的，不可压缩的。

生态文明

小天

拥抱 AI，保留人味儿

/sitemap.xml/feed.xml

文章

6

标签

4

热门标签