听雨 发自 凹非寺量子位 | 公众号 QbitAI
有人把, 利用Claude Code去撰写论文的, 一整套流水线, 给打包开源出来了。
完全戳中了学生党的痛点,github星标直达6.4k。

academic-research-skills
由Claude Code构成的技能包集, 被称作ARS, 它是一个名为academic - research -skills的项目。
其中包含4个skill, 它们各自对应着论文的进行研究, 开展写作, 实施审稿, 完成定稿。
只需两行命令安装,直接一条龙串起整套学术研究流水线。

academic-research-skills
只能说,我读研的时候怎么没碰到这种好东西呢…

示意图
4个skill,跑通整套科研流程
ARS的核心架构是由4个skill所构成的, 这4个skill各自履行着不同的职责, 将它们拼凑在一起便成为了一条从选题起始一直到交稿结束的完善链路。
我这里还做了图,大家可以看得比较直观:

一支有所谓Deep Research之名的研究团队, 其成员数量为13个, 这些成员皆为Agent。
它承担着文献调研的工作, 负责研究问题的构建, 进行方法论的设计, 并且能够撰写具有系统性的PRISMA综述。
团队当中, 存在着专门从事文献溯源工作的Agent, 它会去调用Semantic Scholar API, 以此来验证每一篇被引用文献的真实性。
有苏格拉底导师Agent,通过对话引导研究者理清思路。
另外, 有魔鬼代言人Agent, 它专门去挑刺, 以此来防止研究者在早期的时候就陷入思维定式。

写作者团队Academic Paper里, 有整整十二个做着相关工作的Agent。
覆盖全流程, 从大纲设计开始, 接着是论证构建, 然后是草稿撰写, 之后是双语摘要生成, 再之后是图表可视化, 最后是引用格式转换。
需格外着重提及的乃风格校准功能, AI会去研习你以往作品所具备的写作风格, 从而促使输出更趋近于仿佛是你亲自撰写的, 而非呈现出千篇一律的所谓AI那种腔调具备的形态。
输出格式, 支持Markdown, 支持DOCX, 支持LaTeX, 最终能够编译成APA 7.0格式的PDF, 最终能够编译成IEEE格式的PDF。

审稿团队名为Academic Paper Reviewer, 它有着7个被称为Agent的成员。
按照模拟真实学术期刊的评审流程, 由主编EIC引领三位领域审稿人, 另外还加上一个魔鬼代言人, 从方法论方面打分, 从学科视角方面打分, 从跨学科价值等多个维度打分。
评分运用从0至100的量化准则, 大于80分予以接受, 处于65至79分进行小修, 处于50至64分进行大修, 小于50分予以拒稿。
审稿团队还会输出详细的修改路线图,告诉作者下一步该做什么。

Academic Pipeline作为流程编排器, 它将前面的三个团队进行串联, 从而形式一条具备10个阶段的流水线。
先是研究, 接着写作, 再进行完整性检查, 随后是同行评审, 之后修订, 然后最终检查, 再到发表准备以及流程总结, 每一个阶段都存在明确的产物以及检查点。
您能够于任意的阶段进行插入, 比如说已然拥有了初稿, 那么便从Stage 2.5的完整性检查着手开始;要是收到了审稿意见, 那就直接从Stage 4的修订切入进去。
费用参考呈现出极为清晰的透明状态, 针对一篇字数为1.5万字的论文而言, 整个流程全部完成大概所需费用为4到6美元。

比较有意思的设计
做学术研究时, 用Claude Code的开源项目已经有好多了, 然而, 深入探究以后, 我发觉ARS在底层设计方面仍旧存在一些超出常人的优点。
可以简单总结为一句话:系统性防止AI搞砸学术研究。
第一,引用核验。
AI写论文最忌讳的,就是幻觉引用。
不只是去编造那根本不存在的文章, 还涵盖了标题相似然而作者以及年份却全都错误的情形, 另外还有DOI是真实的但内容却对不上的等更为隐蔽的状况。
ARS在处于Deep Research阶段之时, 埋下了一个引用核验机制, 每一篇文献都需要经过Semantic Scholar API的存在性确认。
不是仅仅简单地去查看一下标题是否正确, 而是要运用Levenshtein相似度算法来进行模糊匹配, 并且阈值设定在0.70以上才能够算做通过。

第二开云手机入口app下载开云app官方入口网站,完整性闸门。
于流水线的Stage 2.5之时, 以及Stage 4.5之际, 存在两道无法予以跳过的完整性闸门, 此两道闸门会运行一份涵盖7项内容的AI失败模式检查清单。
此项清单径直源自于2026年刊登在Nature上面的一项具备完全自主性的AI科研探究, 这里面归纳了7种出现失误的模式, 涵盖了引用存在幻觉、数据进行伪造、方法论弄虚作假等状况。

7种翻车模式
任何问题, 在2.5时被标记为SUSPECTED, 到4.5时必须变成CLEAR, 不然就得由人工手动覆盖, 并且留下记录。
设计的逻辑是, 将「我相信AI不会出错」, 转变为「我要求AI证明它没出错」。
在实际测量当中, 这一套机制于一篇实实在在的论文里面, 捕捉到了十五个伪造的引用, 以及三个统计方面所出现的错误。
第三,反谄媚协议,让AI敢于说不。
绝大多数的AI工具, 存在着一个隐蔽的问题, 那就是会去迎合用户, 只要你要求它改, 它就会按照要求去改, 即便这样改出来可能会变得更糟糕。
所以ARS在审稿环节专门设计了反谄媚机制。
有个存在于审稿团队之中的Devil’s Advocate, 其具体所指为魔鬼代言人, 它的职责是进行挑刺行为。
但挑完刺之后,还有一个让步阈值协议。
DA的反驳, 会被给予1到5的评分, 要是评分低过4分, 写作团队就不被允许承认。

换句话说,AI不能为了显得好合作就轻易让步。
与此同时, 攻击强度于修订进程当中务必予以维持。要是第一轮审稿将方法论批驳得千疮百孔, 作者修订之后绝不能使审稿人陡然变得温和。
评分轨迹也会被追踪,任何维度的分数下降都会被标记为回归。
这跟软件工程里, 遵循那个不引入新Bug的原则毫无二致, 就是说改动一处之时, 绝不能够把另一处给弄糟。
第四,三层数据隔离,不让AI偷看答案。
ARS把数据流严格分成三层:
原始输入是Layer 1, 默认情况下不可信, 它也许会有幻觉, 可能是过时的, 还可能带有偏见。
Layer 2是通过完整性验证后的产物。
评分标准是Layer 3, 参考答案是Layer 3, 金标数据也是Layer 3, 这层材料在写作AI的上下文中永远都不能出现。
在具体的实现情形当中, 写作的团队, 以及审稿的团队, 会分作两次来进行独立的调用, 在这两次调用之间, 存在着阶段边界的隔离。
写作AI所能够接收到的为审稿AI给出的自然语言反馈, 举例来说, 像「第二章论证存在断裂衔接之状况, 建议增添对比实验」这样的内容。
但它看不到原始的评分标准,也不知道每个维度占多少分。
今年, Anthropic所开展的w2s-researcher研究, 为这个设计提供了灵感来源, 该研究之中, 运用了相同的三层隔离模型。
结果是, 当AI具备读取标签数据的能力时, 所呈现的结果, 或许并非是真正意义上的泛化, 反而是在对表面特征进行优化。
解决方案不是更好的提示词,而是结构上的隔离。

最后一点,诚实文档化,「我不保证能复现」。
学术界常常碰到那种困扰无比的状况, 也就是「这个结果我根本就没办法按照原样再呈现出来」的疑难情形。ARS针对每一个产物打造出一个repro_lock文件, 这个文件会将运行期间的所有完备配置都记录下来。
可是呢, 那文件当中存在着一段强制性的声明, LLM的输出并非是字节级能够反复呈现的, 模型的供应商会去更新权重, 然而却不会更改模型的ID, 并且外部的API每一天都会返回不一样的数据。
这个文件只是配置文档,不是重放保证。

在更新日志那儿, 能瞧见ARS历经了好些轮迭代哦。自2月上线直至如今, 所提交的commit数量达到了三百多回呢。
在每一次版本进行更迭的情况之下, 同样是能够看得出作者对于AI学术研究系统所存在的风险是有着那种深刻的理解存在的呀。
这也是我觉得目前学术研究AI工具的关键所在——
让AI助力你撰写论文并非难事, 关键在于怎样防范它出现差错、迎合人意, 以使整个流程变得既更为系统而且更加可靠。
ARS的设计哲学开云app在线入口,开云真人官方下载,可以总结为README里那句话:
「AI是你的副驾驶,不是飞行员。」
如何安装
安装的方式是十分简单的, 要是你一直都在使用Claude Code, 仅仅只所需两行命令:
将/plugin marketplace添加Imbad0202/academic - research - skills, 将/plugin安装academic - research - skills。
验证安装是否成功,运行:
/ars-plan
随后,对正在撰写的论文主题予以描述, ARS便会开启苏格拉底对话, 以此来协助梳理论文结构。
如果你偏好单条命令测试,也可以用:
/ars-lit-review “你的研究主题”
然而, 最为简便的安装方式, 实际上乃是径直将SKILL.md上传至claude.ai项目知识库。
不需要安装Claude Code,打开浏览器就能用。
然而需留意, 这样子不能支持多Agent并行, 功能方面属于单Agent版本, 适宜轻度体验, 要是想运行完整流水线, 仍旧需要Claude Code。
还有一点开云真人app官方版入口,开云真人app官网入口,项目支持繁体中文和英文。
那么,又到了大家最关心的,要花多少钱的环节。
作者建议运用Claude Opus 4.7, 与Max订阅计划相搭配。
当完整跑完十个阶段时, 单次状况下能够消耗超乎二十万的输入token, 以及十万的输出token, 然而若独立使用某一个子模块, 消耗的数量则会少很多。
Max订阅计划分两档,每月100刀或200刀,相当不便宜。
但如果你的科研经费可以报销的话,那…

示意图
标签: 学术研究 AI工具 论文写作 流水线 ClaudeCode
还木有评论哦,快来抢沙发吧~