采集引擎

采集引擎用于把不同站点、H5、小程序、接口、视频平台、法律文书站点等外部数据，按可重复执行的规则采集到吾码平台。它不是一次性的 AI 抓取脚本，而是一套由采集站点、采集规则、采集账号、本地 Worker、任务、步骤、产物、通用结果和导出产物组成的标准系统引擎。

架构

推荐架构如下：

跨平台桌面场景优先使用 OpenClaw，因为它可以封装 Electron / Express / Playwright / Chrome，并支持 Windows 与 macOS 打包。

采集引擎标准表使用 mci_spider_ 前缀：

表名	说明
`mci_spider_site`	采集站点，保存站点类型、基础地址、登录地址、验证码要求。
`mci_spider_rule`	采集规则，保存 Recipe、凭据结构、重试策略、预期计划、保存接口、导出接口。
`mci_spider_account`	采集账号，保存账号、密码密文字段、登录身份名称、浏览器 Profile、验证码策略。
`mci_spider_profile`	浏览器会话，保存 Worker 写入的本地 Chrome Profile 状态。
`mci_spider_worker`	本地 Worker 心跳和运行状态。
`mci_spider_task`	采集任务，保存预计条数、成功条数、失败条数、完整条数、人工处理提示。
`mci_spider_task_step`	任务步骤日志。
`mci_spider_artifact`	采集产物，如截图、验证码图、接口响应、HTML、日志。
`mci_spider_result`	通用采集结果。具体业务表由规则 V8 保存。
`mci_spider_export`	导出产物，保存 TXT、Word、ZIP、Excel 等私有附件路径和导出统计。

通用表不要写死“学校、题目、答案、课程”等业务含义。题库只是业务场景之一，应由业务表和规则 V8 表达。

一个可交付的规则必须能被重复执行。mci_spider_rule 至少应包含：

如果站点需要从另一个系统先获取姓名、主体名等登录身份，Worker 获取成功后应写回 mci_spider_account.LoginIdentityName，下次复跑直接使用。

验证码识别必须保守：

OpenClaw 本地 Worker 应在以下时机写入后台：

打开浏览器：写入 mci_spider_profile 和 browser-session 产物。
页面截图：写入 screenshot 产物。
验证码 OCR：写入 captcha-screenshot 产物和验证码步骤。
捕获接口响应：写入 api-response 产物。
保存结果：通过 mci-spider-task-report 上报 ExpectedCount、SuccessCount、FailCount、CompleteCount。

常用接口引擎：

导出文件应通过平台私有附件路径保存，后台用户可以在导出产物中重复下载。不要把客户交付文件做成公开匿名访问。

采集引擎菜单默认建议放在“系统引擎”下，保持两级：

当项目以采集为主，或用户已经明确把“采集引擎”作为独立分组时，应保留三级结构，例如“系统引擎 / 采集引擎 / 采集规则”。AI 和 MCP 修复菜单时不能因为默认推荐两级，就隐藏、删除或强行拉平用户刻意创建的三级采集引擎菜单。

交付采集规则时，应给出：