豆包大模型

2个月前发布 49 00

字节跳动AI模型家族，覆盖视频生成与语言处理。

收录时间：

2026-04-30

豆包大模型是什么？

豆包大模型是字节跳动推出的一站式AI大模型家族，涵盖语言理解、图像生成、视频创作及语音处理等多元能力。它通过火山引擎为企业与开发者提供服务，支持从文本创作到实时翻译的各类智能化应用。豆包大模型凭借在MMLU、GSM8K等权威基准测试中的卓越表现（如Doubao-pro-4k总分76.8分），成为构建AI应用的高效引擎。

官网地址：https://www.volcengine.com/docs/82379

主要功能

通用模型：字节跳动自研LLM，支持128K长文本，可精调。具备理解、生成、逻辑等综合能力，适配问答、总结、创作、分类等场景。
视频生成：通过精准语义理解与动态运镜，创作高质量视频，支持文本和图片两种生成模式。
角色扮演：创作个性化角色，具备上下文感知与剧情推动能力，适合虚拟互动和故事创作。
语音合成：生成自然生动的语音，能表达多种情绪，适用于文本到语音转换。
声音复刻：快速克隆声音，高度还原音色与自然度，支持跨语种迁移，用于个性化语音合成。
语音识别：准确识别和转录语音，支持多语种，适用于语音命令和转录服务。
文生图：将文本转换为图像，擅长图文匹配和中国文化元素创作，用于图像生成和视觉内容创作。
图生图：基于现有图像生成新图像，支持风格变换、扩图、重绘和涂抹等创意操作。
同声传译：提供超低延时且自然高质量的实时翻译，支持跨语言同音色翻译，打破语言壁垒。
FunctionCall：准确识别和抽取功能参数，适合复杂工具调用和智能交互。
向量化：提供向量检索能力，支持LLM知识库核心理解，适用于多语言处理。

功能特点

豆包通用模型Pro：高级语言模型，支持128K长文本，适用于问答、总结、创作等多种场景。
豆包通用模型Lite：轻量级模型，提供更低成本和延迟，适合预算有限的企业。
豆包·视频生成模型：利用语义理解技术，将文本和图片转化为高质量视频。
豆包·语言识别模型：高准确率和灵敏度，快速识别和转写多语言语音。
豆包·FunctionCall模型：专为复杂工具调用设计，提供精确功能识别和参数抽取。
豆包·文生图模型：文字转图像，擅长捕捉和表现中国文化元素。
豆包·语音合成模型：合成自然生动的语音，表达丰富情感和场景。
豆包·向量化模型：专注于向量检索，为知识库提供核心理解能力，支持多语言。
豆包·声音复刻模型：仅需5秒实现声音1:1克隆，提供高度相似音色和自然度。
豆包·同声传译模型：实现超低延迟实时翻译，支持跨语言同音色翻译，消除语言障碍。
豆包·角色扮演模型：具备个性化角色创作能力，根据上下文感知和剧情推动进行灵活扮演。

如何使用豆包大模型

确定需求：明确项目或业务需求，如文本生成、语音识别、图像创作、视频生成等。
选择模型：根据需求选择合适的豆包大模型，如文生图、语音合成、视频生成等。
注册和访问火山引擎：访问火山引擎官网注册账户，它是字节跳动的云服务平台，提供豆包大模型服务。
申请访问权限：在火山引擎平台上申请豆包大模型使用权限，填写相关信息和使用场景。
API接入：获取API接口信息，包括端点、请求方法和认证信息。
开发和测试：根据API文档开发应用，将豆包大模型集成到业务流程中。进行充分测试，确保模型输出符合预期。
部署应用：测试无误后，将集成豆包大模型的应用部署到生产环境。
监控和优化：监控应用性能和模型效果，根据反馈进行优化。

产品定价

大语言模型（按tokens使用量付费）

Doubao-lite-4k：上下文4K，输入0.0003元/千tokens，输出0.0003元/千tokens，后付费，免费额度50万tokens。
Doubao-lite-32k：上下文32K，输入0.0003元/千tokens，输出0.0006元/千tokens，后付费，免费额度50万tokens。
Doubao-lite-128k：上下文128K，输入0.0008元/千tokens，输出0.0010元/千tokens，后付费，免费额度50万tokens。
Doubao-pro-4k：上下文4K，输入0.0008元/千tokens，输出0.0020元/千tokens，后付费，免费额度50万tokens。
Doubao-pro-32k：上下文32K，输入0.0008元/千tokens，输出0.0020元/千tokens，后付费，免费额度50万tokens。
Doubao-pro-128k：上下文128K，输入0.0050元/千tokens，输出0.0090元/千tokens，后付费，免费额度50万tokens。

按模型单元付费（独占算力资源）

Doubao-lite-4k/32k：可承载TPS 3000，按小时60元/个，包月28000元/个。
Doubao-lite-128k：可承载TPS 4500，按小时240元/个，包月112000元/个。
Doubao-pro-4k/32k：可承载TPS 3200，按小时160元/个，包月80000元/个。
Doubao-pro-128k：可承载TPS 3500，按小时1200元/个，包月550000元/个。

视觉模型

豆包-文生图模型-智能绘图：推理服务，0.2元/次，后付费，免费额度200次。

语音大模型

豆包-语音合成：推理服务，5元/万字符，后付费，免费额度5000字符。
豆包-声音复刻：推理服务，8元/万字符，后付费，免费额度5000字符。

向量模型

豆包-embedding：最长输入4K，输入0.0005元/千tokens，后付费，免费50万tokens。

模型精调（按tokens使用量计费）

Doubao-lite全系列：LoRA定价0.03元/千tokens，后付费。
Doubao-pro全系列：LoRA定价0.05元/千tokens，后付费。

更多模型及定价信息，请访问豆包大模型官网获取最新详情。

应用场景

内容创作与媒体：使用文生图、图生图、视频生成模型生成配图、漫画、海报、短视频等。语音合成为视频、动画配音。
客户服务：角色扮演模型提供虚拟客服和聊天机器人。语音识别与合成改善语音客服系统。
教育与培训：文生图辅助教学材料制作，角色扮演模型创建个性化学习体验和虚拟教师。
娱乐与游戏：游戏中使用角色扮演模型创建NPC对话和行为。语音合成模型为角色提供自然语言交流。
智能助手：结合语音识别和合成，开发智能个人助理。文生图生成个性化推荐内容。
市场与广告：文生图自动生成广告创意和营销素材。通用模型分析消费者反馈，优化广告文案。
企业自动化：FunctionCall模型自动化复杂工作流和工具调用。向量化模型进行高效信息检索和知识管理。
搜索与推荐：向量化模型改善搜索引擎准确性和响应速度。通用模型推荐相关内容或产品。
法律与金融：通用模型进行合同分析、案件研究和合规检查。语音识别转录会议记录和访谈内容。

数据统计

暂无评论

暂无评论...

豆包大模型

豆包大模型是什么？

主要功能

功能特点

如何使用豆包大模型

产品定价

大语言模型（按tokens使用量付费）

按模型单元付费（独占算力资源）

视觉模型

语音大模型

向量模型

模型精调（按tokens使用量计费）

应用场景

数据统计

相关导航

阿里巴巴M6

无阶未来

Gradio

百度AI助手

AutoGPT

Scale AI

DeepFloyd IF

豆包

暂无评论