AI 一站式短剧/漫剧生成平台 Industrial AI Motion Comic & Video Workbench
AI Directop 是一个 AI 一站式短剧/漫剧平台,面向创作者,实现从灵感到成片的高效生产。
它摒弃了传统的"抽卡式"生成,采用 "Script-to-Asset-to-Keyframe" 的工业化工作流。通过多模型编排与 CLI 订阅复用技术,实现 "一句话生成完整短剧,从剧本到成片全自动化",同时精准控制角色一致性、场景连续性与镜头运动。
传统的 Text-to-Video 往往难以控制具体的运镜和起止画面。AI Directop 引入了动画制作中的 关键帧 (Keyframe) 概念:
- 先画后动:先生成精准的起始帧 (Start) 和结束帧 (End)。
- 插值生成:利用 Veo/Sora 模型在两帧之间生成平滑的视频过渡。
- 资产约束:所有画面生成均受到"角色定妆照"和"场景概念图"的强约束,杜绝人物变形。
- 智能剧本拆解:输入小说或故事大纲,AI 自动拆解为包含场次、时间、气氛的标准剧本结构。
- 视觉化翻译:自动将文字描述转化为专业的 Midjourney/Stable Diffusion 提示词。
- 节奏控制:支持设定目标时长(如 30s 预告片、3min 短剧),AI 自动规划镜头密度。
- ✨ 手动编辑:编辑角色视觉描述、分镜画面提示词、角色列表、动作描述和台词。
- 一致性定妆 (Character Consistency):为每个角色生成标准参考图。
- 衣橱系统 (Wardrobe System):支持多套造型(日常、战斗、受伤),基于 Base Look 保持面部特征一致。
- 场景概念 (Set Design):生成环境参考图,确保同一场景下的不同镜头光影统一。
- 网格化分镜表:全景式管理所有镜头 (Shots)。
- 精准控制:Start Frame(起始画面)+ End Frame(结束画面,可选)。
- 九宫格分镜预览:一键拆分 9 个视角,支持"整图用作首帧"或"裁剪单格"。
- 上下文感知:AI 生成时自动读取角色+场景 Context,解决"不连戏"问题。
- 视频生成双模式:单图 Image-to-Video + 首尾帧 Keyframe Interpolation。
- 时间轴预览:实时预览生成的漫剧片段。
- 渲染追踪:实时监控 API 渲染进度。
- 资产导出:导出高清关键帧和 MP4 片段,支持导入 Premiere/AE 后期剪辑。
| 服务商 | 接入方式 | 支持模型类型 |
|---|---|---|
| OpenAI | API Key / Codex CLI 订阅 | Chat, Image, Video |
| Google AI | API Key / Gemini CLI 订阅 | Chat, Image |
| Anthropic | API Key / Claude CLI 订阅 | Chat |
| Volcengine Ark | API Key (专用) | Chat, Image (SeedDream) |
| AntSK API | API Key (兼容 OpenAI 协议) | Chat, Image, Video |
| 类型 | 模型 |
|---|---|
| 对话 (Chat) | GPT-5.2, GPT-5.1, Gemini 3 Pro, Claude 3.5 Sonnet, DeepSeek V3 |
| 绘图 (Image) | Gemini 3 Pro Image, Nano Banana Pro, SeedDream 3.0 |
| 视频 (Video) | Sora-2, Veo 3.1 (Fast/Standard, 支持 4K) |
| 音频 (Audio) | GPT Audio 1.5 |
通过 AI Directop Companion App 复用本机已登录的 CLI 工具和浏览器会话,无需 API Key 即可使用:
| 模式 | 支持平台 | 能力 | 实现方式 |
|---|---|---|---|
| CLI 代理 | Codex / Gemini / Claude | 文本生成 | 调用本地 CLI 进程 |
| 浏览器自动化 (OpenCLI) | Gemini Web / ChatGPT Desktop | 文本、图片生成 | Chrome Extension + Daemon 浏览器桥接 |
OpenCLI 浏览器自动化特性:
- 🔒 复用已登录的 Web 会话(gemini.google.com / chatgpt.com),无需 API Key
- 🖼️ 支持参考图上传(角色/场景/道具参考图自动传入浏览器)
- 📏 Prompt 安全截断:按通道自动截断超长 prompt(Chat 25K / Image 2K / Video 5K chars)
- 🌏 中英文双语支持:验证逻辑自动适配 CJK 字符(15-300 字符)/ 英文(10-30 词)
# 安装 Companion App
curl -fsSL https://raw.githubusercontent.com/Cy-zhen/AI-Directop-companion/main/install.sh | bash
# 或直接运行
cd companion && node index.mjs安装后,Web App 自动检测并路由请求到本地 Companion(localhost:19820)。
- Telegram 登录认证:通过 Telegram Login Widget 进行身份验证
- 双写架构:IndexedDB(离线优先)+ Supabase PostgreSQL(云端持久化)
- 自动同步:登录时从云端拉取并合并数据,操作时 fire-and-forget 推送
- 数据安全:PostgreSQL RLS 按
user_id行级隔离 - 大文件处理:base64 视频数据自动剥离,避免存储浪费
┌─────────────────────────────────────────────────────────┐
│ 前端 (Frontend) │
│ React 19 · Tailwind CSS · IndexedDB · OPFS │
└───────────────────────┬─────────────────────────────────┘
│
┌───────────────┼───────────────┐
▼ ▼ ▼
┌───────────────┐ ┌───────────┐ ┌───────────────┐
│ Companion App │ │ Server │ │ Supabase │
│ localhost:19820│ │ (Express) │ │ (PostgreSQL) │
│ CLI 代理服务 │ │ API 代理 │ │ 数据持久化 │
└───┬───────────┘ └───┬───────┘ └───────────────┘
│ │
▼ ▼
CLI 工具 AI API
codex/gemini/ OpenAI/Google/
claude Anthropic/Volcengine
- Frontend: React 19, Tailwind CSS (Sony Industrial Design Style)
- Backend: Express.js (API 代理 + Supabase 同步 + Telegram 认证)
- Database: Supabase PostgreSQL + IndexedDB (离线优先)
- Auth: Telegram Login Widget + HMAC-SHA256 验证
- Companion: 独立本地 HTTP 服务,复用 CLI 订阅(独立仓库)
| 服务 | 文件 | 说明 |
|---|---|---|
| AI 对话代理 | server/aiProxy.mjs |
转发到 OpenAI-compatible API |
| New API 代理 | server/newApiProxyCore.mjs |
管理 API endpoint/session |
| 媒体 CORS 代理 | server/mediaProxyServer.mjs |
跨域媒体资源代理 |
| 火山引擎代理 | server/volcengineProxy.mjs |
SeedDream 图像生成 |
| Provider 绑定 | server/providerBindings.mjs |
模型服务商配置绑定 |
| 数据同步 API | server/dataApi.mjs |
Supabase CRUD + 批量同步 |
| Telegram 认证 | server/telegramAuth.mjs |
登录验证 + 用户 upsert |
| 管理 API | server/adminApi.mjs |
管理员管理 |
- 模型选择:支持 4+ 服务商,可自由选择官方 API 或第三方平台
- CLI 订阅复用:安装 Companion App 后,可直接用本机 CLI 订阅额度(ChatGPT Plus / Gemini / Claude Pro)
- API Key 灵活配置:每个服务商独立 Key,支持自带任何 OpenAI-compatible 服务
- 开源初衷:降低使用门槛,让更多创作者快速上手
# 1. 克隆项目
git clone https://github.com/Cy-zhen/AI-Directop.git
cd AI-Directop
# 2. 安装依赖
npm install
# 3. (可选)安装 Companion App 以复用 CLI 订阅
cd companion && node index.mjs &
cd ..
# 4. 启动开发服务器
npm run dev
# 5. 浏览器打开 http://localhost:3000git clone https://github.com/Cy-zhen/AI-Directop.git
cd AI-Directop
# 构建并启动
docker-compose up -d --build
# 访问 http://localhost:3005
# 查看日志 / 停止
docker-compose logs -f
docker-compose downdocker build -t ai-directop .
docker run -d -p 3005:80 --name ai-directop-app ai-directop
# 访问 http://localhost:3005- 配置模型:启动应用 → 设置页面配置 API Key 或安装 Companion App 复用 CLI 订阅
- 故事输入:Phase 01 输入创意,点击"生成分镜脚本"
- 美术设定:Phase 02 生成主角定妆照和场景图
- 分镜制作:Phase 03 生成首帧,可用九宫格预览挑选构图
- 动效生成:选定视频模型生成片段
- 修复: OpenCLI 模式下分镜头生成缺失资产绑定(角色/场景/道具不自动填充)
- 修复:
extractShotsFromText字段名sceneRefId→sceneId导致场景参考图缺失 - 增强: 自然语言 fallback 提取器新增角色名/道具名文本匹配恢复 ID 绑定
- 新增: OpenCLI 浏览器自动化集成(Gemini Web + ChatGPT Desktop)
- 新增: Companion 全通道 Prompt 安全截断(Chat/Image/Video 分级上限)
- 修复: 中文分镜描述验证失败(CJK 字符检测 + 双语验证逻辑)
- 修复: 移除静默 Provider 回退,确保用户选择的模型被正确使用
- 新增: 云端数据同步(Supabase PostgreSQL + Telegram 登录)
本项目基于 BigBanana-AI-Director 进行二次开发。感谢原作者的开源贡献!
本项目采用 CC BY-NC-SA 4.0 许可证。
- ✅ 允许个人学习和非商业用途
- ✅ 允许修改和二次创作(需使用相同许可证)
- ❌ 禁止商业用途(需获得商业授权)
Built for Creators, by AI Directop.










