Free SKILL.md scraped from GitHub. Clone the repo or copy the file directly into your Claude Code skills directory.
npx versuz@latest install affaan-m-everything-claude-code-docs-zh-cn-skills-fal-ai-mediagit clone https://github.com/affaan-m/everything-claude-code.gitcp everything-claude-code/SKILL.MD ~/.claude/skills/affaan-m-everything-claude-code-docs-zh-cn-skills-fal-ai-media/SKILL.md---
name: fal-ai-media
description: 通过 fal.ai MCP 实现统一的媒体生成——图像、视频和音频。涵盖文本到图像(Nano Banana)、文本/图像到视频(Seedance、Kling、Veo 3)、文本到语音(CSM-1B),以及视频到音频(ThinkSound)。当用户想要使用 AI 生成图像、视频或音频时使用。
origin: ECC
---
# fal.ai 媒体生成
通过 MCP 使用 fal.ai 模型生成图像、视频和音频。
## 何时激活
* 用户希望根据文本提示生成图像
* 根据文本或图像创建视频
* 生成语音、音乐或音效
* 任何媒体生成任务
* 用户提及“生成图像”、“创建视频”、“文本转语音”、“制作缩略图”或类似表述
## MCP 要求
必须配置 fal.ai MCP 服务器。添加到 `~/.claude.json`:
```json
"fal-ai": {
"command": "npx",
"args": ["-y", "fal-ai-mcp-server"],
"env": { "FAL_KEY": "YOUR_FAL_KEY_HERE" }
}
```
在 [fal.ai](https://fal.ai) 获取 API 密钥。
## MCP 工具
fal.ai MCP 提供以下工具:
* `search` — 通过关键词查找可用模型
* `find` — 获取模型详情和参数
* `generate` — 使用参数运行模型
* `result` — 检查异步生成状态
* `status` — 检查作业状态
* `cancel` — 取消正在运行的作业
* `estimate_cost` — 估算生成成本
* `models` — 列出热门模型
* `upload` — 上传文件用作输入
***
## 图像生成
### Nano Banana 2(快速)
最适合:快速迭代、草稿、文生图、图像编辑。
```
generate(
app_id: "fal-ai/nano-banana-2",
input_data: {
"prompt": "未来主义日落城市景观,赛博朋克风格",
"image_size": "landscape_16_9",
"num_images": 1,
"seed": 42
}
)
```
### Nano Banana Pro(高保真)
最适合:生产级图像、写实感、排版、详细提示。
```
generate(
app_id: "fal-ai/nano-banana-pro",
input_data: {
"prompt": "专业产品照片,无线耳机置于大理石表面,影棚灯光",
"image_size": "square",
"num_images": 1,
"guidance_scale": 7.5
}
)
```
### 常见图像参数
| 参数 | 类型 | 选项 | 说明 |
|-------|------|---------|-------|
| `prompt` | 字符串 | 必需 | 描述您想要的内容 |
| `image_size` | 字符串 | `square`、`portrait_4_3`、`landscape_16_9`、`portrait_16_9`、`landscape_4_3` | 宽高比 |
| `num_images` | 数字 | 1-4 | 生成数量 |
| `seed` | 数字 | 任意整数 | 可重现性 |
| `guidance_scale` | 数字 | 1-20 | 遵循提示的紧密程度(值越高越贴近字面) |
### 图像编辑
使用 Nano Banana 2 并输入图像进行修复、扩展或风格迁移:
```
# 首先上传源图像
upload(file_path: "/path/to/image.png")
# 然后使用图像输入进行生成
generate(
app_id: "fal-ai/nano-banana-2",
input_data: {
"prompt": "same scene but in watercolor style",
"image_url": "<uploaded_url>",
"image_size": "landscape_16_9"
}
)
```
***
## 视频生成
### Seedance 1.0 Pro(字节跳动)
最适合:文生视频、图生视频,具有高运动质量。
```
generate(
app_id: "fal-ai/seedance-1-0-pro",
input_data: {
"prompt": "a drone flyover of a mountain lake at golden hour, cinematic",
"duration": "5s",
"aspect_ratio": "16:9",
"seed": 42
}
)
```
### Kling Video v3 Pro
最适合:文生/图生视频,带原生音频生成。
```
generate(
app_id: "fal-ai/kling-video/v3/pro",
input_data: {
"prompt": "海浪拍打着岩石海岸,乌云密布",
"duration": "5s",
"aspect_ratio": "16:9"
}
)
```
### Veo 3(Google DeepMind)
最适合:带生成声音的视频,高视觉质量。
```
generate(
app_id: "fal-ai/veo-3",
input_data: {
"prompt": "夜晚熙熙攘攘的东京街头市场,霓虹灯招牌,人群喧嚣",
"aspect_ratio": "16:9"
}
)
```
### 图生视频
从现有图像开始:
```
generate(
app_id: "fal-ai/seedance-1-0-pro",
input_data: {
"prompt": "camera slowly zooms out, gentle wind moves the trees",
"image_url": "<uploaded_image_url>",
"duration": "5s"
}
)
```
### 视频参数
| 参数 | 类型 | 选项 | 说明 |
|-------|------|---------|-------|
| `prompt` | 字符串 | 必需 | 描述视频内容 |
| `duration` | 字符串 | `"5s"`、`"10s"` | 视频长度 |
| `aspect_ratio` | 字符串 | `"16:9"`、`"9:16"`、`"1:1"` | 帧比例 |
| `seed` | 数字 | 任意整数 | 可重现性 |
| `image_url` | 字符串 | URL | 用于图生视频的源图像 |
***
## 音频生成
### CSM-1B(对话语音)
文本转语音,具有自然、对话式的音质。
```
generate(
app_id: "fal-ai/csm-1b",
input_data: {
"text": "Hello, welcome to the demo. Let me show you how this works.",
"speaker_id": 0
}
)
```
### ThinkSound(视频转音频)
根据视频内容生成匹配的音频。
```
generate(
app_id: "fal-ai/thinksound",
input_data: {
"video_url": "<video_url>",
"prompt": "ambient forest sounds with birds chirping"
}
)
```
### ElevenLabs(通过 API,无 MCP)
如需专业的语音合成,直接使用 ElevenLabs:
```python
import os
import requests
resp = requests.post(
"https://api.elevenlabs.io/v1/text-to-speech/<voice_id>",
headers={
"xi-api-key": os.environ["ELEVENLABS_API_KEY"],
"Content-Type": "application/json"
},
json={
"text": "Your text here",
"model_id": "eleven_turbo_v2_5",
"voice_settings": {"stability": 0.5, "similarity_boost": 0.75}
}
)
with open("output.mp3", "wb") as f:
f.write(resp.content)
```
### VideoDB 生成式音频
如果配置了 VideoDB,使用其生成式音频:
```python
# Voice generation
audio = coll.generate_voice(text="Your narration here", voice="alloy")
# Music generation
music = coll.generate_music(prompt="upbeat electronic background music", duration=30)
# Sound effects
sfx = coll.generate_sound_effect(prompt="thunder crack followed by rain")
```
***
## 成本估算
生成前,检查估算成本:
```
estimate_cost(
estimate_type: "unit_price",
endpoints: {
"fal-ai/nano-banana-pro": {
"unit_quantity": 1
}
}
)
```
## 模型发现
查找特定任务的模型:
```
search(query: "text to video")
find(endpoint_ids: ["fal-ai/seedance-1-0-pro"])
models()
```
## 提示
* 在迭代提示时,使用 `seed` 以获得可重现的结果
* 先用低成本模型(Nano Banana 2)进行提示迭代,然后切换到 Pro 版进行最终生成
* 对于视频,保持提示描述性但简洁——聚焦于运动和场景
* 图生视频比纯文生视频能产生更可控的结果
* 在运行昂贵的视频生成前,检查 `estimate_cost`
## 相关技能
* `videodb` — 视频处理、编辑和流媒体
* `video-editing` — AI 驱动的视频编辑工作流
* `content-engine` — 社交媒体平台内容创作