我是 87 年的,早年做过六年前端,后来转产品,做到 UED 主管。2014 年出来创业,一直做跨境进口。
公司里基本就是个打杂的:产品、运营、流程、成本、人,哪儿漏了堵哪儿。代码这东西我是真喜欢,但说实话,很多年没正经碰过了。
把我重新拽回来的,是 AI 。
最开始我从 OpenClaw 上手,后来换到 Hermes 。最直接的体感是:在体外记忆和多 agent 协同这件事上,Hermes 更接近我想要的那种“能接业务”的状态。OpenClaw 不是不能用,但我当时那套业务场景里,一复杂就开始吃力。
为什么这件事要命?
因为我一开始不是想做玩具项目。我是想给公司运营搭一套内部工作流。
我们做跨境进口,品类很杂。一个类目一套规矩,一个供应链一套限制,一个平台又一套审核逻辑。落到系统里,就不是一个 agent 解决所有事,而是要把不同类目拆开,各自有自己的记忆、规则、流程,再让多个 agent 协作。
听着很美。
然后就开始受罪了。
那阵子为了省钱,我主力用 DeepSeek 和 Qwen-Plus 跑这套多 agent 。不是说它们不好,而是在我当时那套配置里,只要任务稍微复杂一点,就很容易串记忆。
A 类目的上下文窜到 B 类目去,agent 之间一交接就乱。昨天还好好的,今天就像不认人了。
一个多年没正经写代码的人,去 debug “记忆错乱”,那种抓瞎你能想象。你看日志,看提示词,看上下文传递,看工具调用,最后发现哪儿都像有问题,哪儿又都说不清。
光在这上面试错,前前后后烧了两千多。
中间还有个插曲。我拿 GLM 做了个小功能,本来以为就是几句对话的事,结果最后账单出来两百多。我当时真愣住了。
后来回头看,大概率不是单纯模型价格的问题,而是我那次上下文、重试、工具调用没控住。便宜模型也不是闭眼省钱,用不对,一样肉疼。
后来换 Kimi ,好一些。
它长上下文确实能扛,整段文档、规则、历史记录塞进去,它至少不那么容易当场失忆。对我这种“不想重新解释十遍背景”的人来说,Kimi 那种能接长材料的能力,确实省心一点。
但真正让我感觉这事能往前走的,是换到 Claude 之后。
那套多 agent 协作到 Claude 手里,明显顺了很多。该是谁的记忆就是谁的,交接的时候不那么容易乱。不是说完全不出错,但出错的方式我能理解,也能修。
这个差别对我很重要。
因为我不是全职工程师,我不可能每天把大量时间耗在底层排错上。模型便宜是便宜,但如果每省 10 块 token ,背后多花我 2 小时 debug ,那账其实是亏的。
这里还有一个坑,现在想起来还肉疼。
当时为了省钱,我走过一些不太稳定的 Claude 使用方式,结果账号出问题了。省下那点钱,跟账号不稳定、工作流中断比起来,根本不值。
这事教育了我:有些便宜不能硬占。尤其是工具已经接进日常工作之后,稳定比单次便宜重要得多。
后面我就老老实实用 Claude 和 Codex 做开发。
这一年下来,公司业务中台基本成型,我现在的分工方式大概是这样:
最基础、能拆得特别细的活,交给便宜模型,或者走中转站。比如类目识别、违规词识别、简单字段提取,这种输入输出都很窄、规则很死的任务,它们做得又快又便宜,错了也好兜。
再往上,对接内部后台、数据分析系统、客服系统,我按部门一个个搭 skill 。谁的活谁的 skill ,规则、上下文、边界都拆开。这样越搭越顺。
再复杂一点的,比如多 agent 协作、跨部门流程、需要理解业务前后关系的东西,我就更愿意上 Claude / Codex 。贵是贵,但省脑子,省时间,也省半夜坐在电脑前骂人的次数。
折腾到现在,我的认知很朴素:
国产模型,适合你把任务拆得特别细,让它做最基础、最明确的那一块。
国外模型,贵,但省心。
别把一个大而模糊的活整个丢给便宜模型。它可能会串、会乱、会看起来很自信地跑偏。
但如果你能把活剁成一颗颗小螺丝钉,它拧得又稳又便宜。
复杂的、要自己把握全局的部分,交给更省心的模型,少熬很多夜。
现在我长期用 Claude Code 和 Codex 。说实话,我已经不怎么看代码了。我的工作变成了:描述我要什么,拆业务流程,验收结果,发现不对再让它改。
中间那些代码,大部分是 AI 写的。
一个十年没正经碰代码的人,靠这套又开始造东西,这事我自己都觉得有点魔幻。
但我还有个问题没完全想明白:
便宜模型和省心模型之间那条线,到底应该画在哪?
哪些活值得花时间拆到极细,喂给便宜模型?哪些活一开始就该上贵的?因为有时候省下的人力,可能比省下的 token 钱多得多。
这条线我现在还在一个个任务里试。
你们是怎么分的?
如果有人也卡在 Claude / Codex 的注册、付费、账单、额度,或者中转站选择这些坑里,我后面可以单独整理一篇。不保证标准答案,只讲我自己怎么踩出来的。