十年没正经写代码后，我靠 AI 把公司工作流重新搭了一遍

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

我是 87 年的，早年做过六年前端，后来转产品，做到 UED 主管。2014 年出来创业，一直做跨境进口。

公司里基本就是个打杂的：产品、运营、流程、成本、人，哪儿漏了堵哪儿。代码这东西我是真喜欢，但说实话，很多年没正经碰过了。

把我重新拽回来的，是 AI 。

最开始我从 OpenClaw 上手，后来换到 Hermes 。最直接的体感是：在体外记忆和多 agent 协同这件事上，Hermes 更接近我想要的那种“能接业务”的状态。OpenClaw 不是不能用，但我当时那套业务场景里，一复杂就开始吃力。

为什么这件事要命？

因为我一开始不是想做玩具项目。我是想给公司运营搭一套内部工作流。

我们做跨境进口，品类很杂。一个类目一套规矩，一个供应链一套限制，一个平台又一套审核逻辑。落到系统里，就不是一个 agent 解决所有事，而是要把不同类目拆开，各自有自己的记忆、规则、流程，再让多个 agent 协作。

听着很美。

然后就开始受罪了。

那阵子为了省钱，我主力用 DeepSeek 和 Qwen-Plus 跑这套多 agent 。不是说它们不好，而是在我当时那套配置里，只要任务稍微复杂一点，就很容易串记忆。

A 类目的上下文窜到 B 类目去，agent 之间一交接就乱。昨天还好好的，今天就像不认人了。

一个多年没正经写代码的人，去 debug “记忆错乱”，那种抓瞎你能想象。你看日志，看提示词，看上下文传递，看工具调用，最后发现哪儿都像有问题，哪儿又都说不清。

光在这上面试错，前前后后烧了两千多。

中间还有个插曲。我拿 GLM 做了个小功能，本来以为就是几句对话的事，结果最后账单出来两百多。我当时真愣住了。

后来回头看，大概率不是单纯模型价格的问题，而是我那次上下文、重试、工具调用没控住。便宜模型也不是闭眼省钱，用不对，一样肉疼。

后来换 Kimi ，好一些。

它长上下文确实能扛，整段文档、规则、历史记录塞进去，它至少不那么容易当场失忆。对我这种“不想重新解释十遍背景”的人来说，Kimi 那种能接长材料的能力，确实省心一点。

但真正让我感觉这事能往前走的，是换到 Claude 之后。

那套多 agent 协作到 Claude 手里，明显顺了很多。该是谁的记忆就是谁的，交接的时候不那么容易乱。不是说完全不出错，但出错的方式我能理解，也能修。

这个差别对我很重要。

因为我不是全职工程师，我不可能每天把大量时间耗在底层排错上。模型便宜是便宜，但如果每省 10 块 token ，背后多花我 2 小时 debug ，那账其实是亏的。

这里还有一个坑，现在想起来还肉疼。

当时为了省钱，我走过一些不太稳定的 Claude 使用方式，结果账号出问题了。省下那点钱，跟账号不稳定、工作流中断比起来，根本不值。

这事教育了我：有些便宜不能硬占。尤其是工具已经接进日常工作之后，稳定比单次便宜重要得多。

后面我就老老实实用 Claude 和 Codex 做开发。

这一年下来，公司业务中台基本成型，我现在的分工方式大概是这样：

最基础、能拆得特别细的活，交给便宜模型，或者走中转站。比如类目识别、违规词识别、简单字段提取，这种输入输出都很窄、规则很死的任务，它们做得又快又便宜，错了也好兜。

再往上，对接内部后台、数据分析系统、客服系统，我按部门一个个搭 skill 。谁的活谁的 skill ，规则、上下文、边界都拆开。这样越搭越顺。

再复杂一点的，比如多 agent 协作、跨部门流程、需要理解业务前后关系的东西，我就更愿意上 Claude / Codex 。贵是贵，但省脑子，省时间，也省半夜坐在电脑前骂人的次数。

折腾到现在，我的认知很朴素：

国产模型，适合你把任务拆得特别细，让它做最基础、最明确的那一块。

国外模型，贵，但省心。

别把一个大而模糊的活整个丢给便宜模型。它可能会串、会乱、会看起来很自信地跑偏。

但如果你能把活剁成一颗颗小螺丝钉，它拧得又稳又便宜。

复杂的、要自己把握全局的部分，交给更省心的模型，少熬很多夜。

现在我长期用 Claude Code 和 Codex 。说实话，我已经不怎么看代码了。我的工作变成了：描述我要什么，拆业务流程，验收结果，发现不对再让它改。

中间那些代码，大部分是 AI 写的。

一个十年没正经碰代码的人，靠这套又开始造东西，这事我自己都觉得有点魔幻。

但我还有个问题没完全想明白：

便宜模型和省心模型之间那条线，到底应该画在哪？

哪些活值得花时间拆到极细，喂给便宜模型？哪些活一开始就该上贵的？因为有时候省下的人力，可能比省下的 token 钱多得多。

这条线我现在还在一个个任务里试。

你们是怎么分的？

如果有人也卡在 Claude / Codex 的注册、付费、账单、额度，或者中转站选择这些坑里，我后面可以单独整理一篇。不保证标准答案，只讲我自己怎么踩出来的。

工作流

多Agent

稳定

41 replies • 2026-06-25 22:08:57 +08:00

xubeiyou

16h 13m ago

牛的

yuhangch

16h 9m ago

少见的人写的长文了，牛的

z1645444

16h 2m ago

用词精准，概念分得清，没有幻想，有具体的场景，有使用感受，还是长文:O

太少见了，严肃感谢

TieSg

15h 58m ago

楼主可以讲讲

mikaelson

15h 45m ago

全文看下来，很舒服。能再详细展开介绍一下使用方式吗？

chenalex

15h 44m ago

"现在我长期用 Claude Code 和 Codex 。说实话，我已经不怎么看代码了。我的工作变成了：描述我要什么，拆业务 procedure(流程)，验收结果，发现不对再让它改。"
这部分楼主可以讲讲是怎么做的, 从哪方面收敛风险的, 之前也这么试过, 但是后面发现出现 ai 出现一直改都改不对, 或者改 A 问题, 会出现 B 问题时, 再回头看代码已经成了克苏鲁, 不可形容, 不可直视

unusualcat

15h 43m ago

@yuhangch 这就是 AI 写的啊!起码是 AI 润色过的

erwin1030

15h 32m ago

这个不是一眼 AI 处理过的么 😂

triplephon

15h 24m ago

ai 味太浓了，特别是这几句：“公司里基本就是个打杂的：产品、运营、流程、成本、人，哪儿漏了堵哪儿。代码这东西我是真喜欢，但说实话，很多年没正经碰过了。”；“Hermes 更接近我想要的那种“能接业务”的状态。OpenClaw 不是不能用，但我当时那套业务场景里，一复杂就开始吃力。”

fgghyyfk

15h 18m ago

谢谢几位提醒，确实有 AI 帮我整理和润色，我不装纯手写。素材和经历是自己的，但表达上确实被它收得太整齐了，后面我会再压一压这种味道。

@chenalex 你提到的“改 A 坏 B 、最后变克苏鲁”我也遇到过，这个我后面单独写一篇。现在我自己的笨办法是：先把需求拆到很小；每一步都让它写验收条件；能跑测试就必须跑；改动前先让它复述影响范围；一旦连续两轮改不动，就回滚重新拆，不跟它死磕。

wu00

15h 6m ago

虽然但是，这个排版看不下去

fgghyyfk

15h 6m ago

大家如果对 codex 和 claude code 的帐号有兴趣，我也可以再写一篇真实感受和注册支付方法，目前用了快 3 个月了，就最初的时候用 cli 的方式被误杀过一回

fgghyyfk

15h 5m ago

@wu00 下回优化下排版，确实太平铺了

fgghyyfk

15h 5m ago

@erwin1030 长文我也写不动啊，基本是平铺了自己的感受和经历，AI 润色的

LaZoe

14h 50m ago

学到了，感谢

musicbaby

14h 49m ago

给 op 提个善意建议。自己产出的长文，就别用 AI 润色了，或者起码等你有很多创作后在把你的写作习惯蒸馏城 skill 再让它润色。不然你写个正经分享出来，别人怎么看怎么像推广。我看到最后还在想，推广呢？哪儿去了。这也就是今天闲得蛋疼没事干，换往常，看这种文体，看两眼就不会继续看下去了。

fgghyyfk

14h 39m ago

@musicbaby 受教了，第一次写，感谢提醒哈

pinecone1

14h 36m ago

几眼就能看出来是 GPT 写的，味儿太大了，就不太想看了

fivesmallq

14h 34m ago

“这一年下来，公司业务中台基本成型，我现在的分工方式大概是这样”

一年前 agent 概念是啥？有落地实践？一年前的模型能力都不行，就去年 11 月开始能力跃升。

niubee1

14h 31m ago

窜上下文跟模型有什么关系？看到这里我就知道是个不靠谱的 Claude 软文

zhuanggu

14h 20m ago

这个口音就是 AI 写的。“听着很美。然后就开始受罪了。” 我不止看到一次 AI 写这句话。

xooass

14h 9m ago

我也是做跨境的，有个正经注册的美国公司和公司名下的信用卡。然后就没有然后了，A\和 GPT 随便注册用，经常忘了翻墙就打开两者的客户端，一年多了也没被封。

zerovoid

13h 46m ago

为啥这么多人不能接受 AI 润色啊，
我觉得这写得不是挺好的么，
又不是所有人都有能力和有时间去写长文，

我觉得 AI 润色可以很好解决文字表达能力堪忧问题、逻辑混乱问题、用词不当问题、用词匮乏问题。

erwin1030

13h 34m ago

@zerovoid 人的特色在于各自的思想。AI 润色之后把这些同质化了，而且信息熵也低了很多。大家都不想看垃圾内容的。

nadia

13h 25m ago

很好的例子和内容，但是 AI 润色后因为语句太丰盈反而对比出内容的空洞来，而且这款 AI 的基础语调就是给人一种夸夸其谈的感觉，拉低了整体可读性。

lujiaosama

13h 21m ago

不是很理解，你们是工作流里有 AI 参与，还是用 AI 搭建了工作流。

fgghyyfk

11h 41m ago

@lujiaosama 搭了一个业务中台，对接了系统后台、客服软件、分析系统，好几个子系统了，价值非常大，减少了很多重复的运营工作

fgghyyfk

11h 41m ago

@nadia 你这么一说，确实是有点

fgghyyfk

11h 40m ago

@xooass 大多人是没有美国公司和公司名下信用卡的，用起来超级费劲，我现在用 claude 的 20X ，还要交苹果税，249 刀

timeance

10h 21m ago

AI 润色没问题，可以看得出大部分内容都是自己写的

沉下心是可以看下去，因为内容都是真实的...

evil0harry

10h 3m ago

op 是不是用了 humanizer 之类优化过，我看起来脑子里会有一点点的快节奏的感觉，像打拍子一样，有可能是一句话中间包含的信息量有点大，我的脑子在计算😱😱😱

fgghyyfk

10h 3m ago

@timeance 谢谢，我记下了。后面少润色，多放原始过程和具体坑，别写得太端。

ximaoyang

10h 0m ago

记住这句话：最便宜的模型就是最贵的模型，最贵的模型就是最便宜的模型

Vipcw95

10h 0m ago

从头看到尾也没看出来具体什么业务

wubajie

9h 55m ago

语言风格也被 AI 同化了

zengyu

8h 52m ago

@fgghyyfk 啥时写好～

fcten

8h 45m ago

我不知道你的“那阵子”是什么时候，但是很明显所谓的“复杂任务”，其实本质上就是一些并不难，但是繁琐，非常消耗上下文的任务而已。而国产模型能够稳定支持百万上下文，完成长周期任务，也只是最近 3 个月的事情。而 claude 和 gpt 大概从去年下半年开始就表现的很好了。

我 codex/claude/glm/deepseek 都在用，具体差距有多大，每个月的体感都不一样。所以没有什么黄金准则，你现在回去用国产模型，可能又会得出不一样的结论。

WilliamZuo

4h 36m ago

怎么感觉都是小企业在用 AI ？

bigdogbigpig

PRO

4h 18m ago

倒不是 ai 润色不好，但是我确实有时候不能理解一些句子。

例如：”后来回头看，大概率不是单纯模型价格的问题，而是我那次上下文、重试、工具调用没控住“，我完全不知道是什么原因导致的你的账单爆炸。

不过我感觉你是一个倒爷。

你真正用 ai 写代码的时间不超过一周，但凡你写得多点，都知道什么任务 SOTA 模型可以完成，什么任务开源模型可以完成。

zephyru

3h 53m ago

看了头几个层回复我还在怀疑我是和 AI 交流太多了么..
后面才发现我的感性还是没出问题的。
不过排除掉文风问题，内容也还是有意思的，感觉大家走过的路程都差不多，现在一线业务开发估计也不怎么看代码了逻辑没问题，会审查 claude 都能给你推进的七七七八八。
不过就是还是要时常的去重构，AI 代码虽然能跑，但可维护性真的很差，但只要你能指出来，它又能给你整的很好，就比较矛盾。
我自己写玩具项目就 claude ，指挥者国产模型干活，效果也说的过去，我自己确实是变懒了。

p1094358629

3h 10m ago

是把 claude code 搭各自的 agent 干活么