今天给大家推荐的这个开源很有趣啊。
Ten是一个实时AI语音的Agent。
当然,功能很多,不只是语音,ChatGPT那个实时视频的功能也复刻出来了。
而且还针对嵌入硬件做了优化。
项目简介
TEN 是一个全面的开源生态系统,用于创建、定制和部署具有多模态能力的实时对话式 AI 代理,涵盖语音、视觉和虚拟形象交互。它包含 TEN Framework、TEN Turn Detection 等多个项目,提供低代码 / 无代码工具 TMAN Designer,支持本地、容器及云服务部署,助力开发者构建多样化智能交互应用。
功能DEMO
实时虚拟数字人
使用 Trulience 提供的免费数字形象快速构建可交互的 AI 虚拟人。

实时语音与 服务器集成
TEN Agent 支持通过 MCP 服务器调用多种 LLM 模型,实现灵活的实时语音对话。
实时硬件通信
TEN Agent 已成功运行在 Espressif ESP32-S3 Korvo V3 开发板 上。
实现了将 LLM 实时对话功能集成至嵌入式设备,适合物联网场景。
实时视觉与屏幕共享检测
通过 Google Gemini Multimodal Live API 实现对实时摄像头画面及屏幕共享内容的识别。
同时集成了一些工具如:
Weather Check(天气查询)
Web Search(网页搜索)
用于增强多模态交互体验。

与其他 LLM 平台联动
TEN Agent 支持与如 Dify 等第三方 LLM 平台 联合使用。
提供流畅的接口和实时交互支持,提升代理智能与平台兼容性。

StoryTeller 实时图像生成
内置图像生成模块 StoryTeller,支持根据对话内容实时生成图像。
与天气查询、网页搜索等工具完美协作,适合故事创作、场景生成等任务。

项目链接
https://github.com/TEN-framework/ten-framework
https://agent.theten.ai/