ZenCtrl是什么ZenCtrl是FotographerAI推出的AI图像生成工具,支持从单张图像生成高质量、多视角和多样化场景的图像,无需额外训练数据。基于先进算法和图像处理技术,支持实时元素再生...
BILIVE是一种基于人工智能的开源工具,专门用于B站直播的录制和处理。它能够自动录制直播,渲染弹幕和字幕,支持语音识别并自动切割精彩片段,生成吸引人的标题和风格化的视频封面。BILIVE还可以自动将...
HealthBench是什么HealthBench是OpenAI推出的开源医疗测试基准,用于评估大型语言模型(LLMs)在医疗保健领域的表现和安全性。HealthBench包含5000个模型与用户或医...
DeerFlow是什么DeerFlow是由字节跳动推出的开源深度研究框架,旨在帮助用户高效地完成复杂的研究任务。DeerFlow通过结合语言模型与多种工具,如网络搜索、爬虫和Python执行,快速生成...
GitFriend是一种基于React、TypeScript和AI技术开发的AIGitHub辅助工具,旨在简化GitHub的使用流程并提高开发效率。GitFriend通过AI聊天功能为用户提供Git和...
ViLAMP(VIdeo-LAnguageModelwithMixedPrecision)是由蚂蚁集团和中国人民大学共同开发的视觉语言模型,专用于高效处理长视频内容。通过采用混合精度策略,ViLAMP...
Muyan-TTS是一款专为播客场景打造的开源文本转语音(TTS)模型。该模型经过超过10万小时的播客音频数据预训练,能够实现零样本语音合成,无需大量目标说话人的语音数据即可生成高质量语音。Muyan...
Step1X-3D是什么Step1X-3D是StepFun与LightIllusions合作推出的一个高保真且可控的3D资产生成框架。通过严格的数据整理流程,从超过500万个3D资产中筛选出200万个...
Being-M0是什么Being-M0是由北京大学、中国人民大学等多家机构共同研发的首款大规模人形机器人通用动作生成模型。Being-M0依托于业界首个百万级别动作数据集MotionLib,采用创新性...
WorldGen是什么WorldGen是由新加坡南洋理工大学、北京大学以及上海AI实验室共同研发的一款开创性的人工智能世界生成模型。该模型通过引入记忆机制,有效解决了传统世界生成模型在长时间序列中缺乏...
DanceGRPO是字节跳动Seed和香港大学共同研发的首个统一视觉生成强化学习框架。该框架创新性地将强化学习应用于视觉生成领域,涵盖了两种生成模式(扩散模型和修正流模型)、三种任务类型(文本到图像、...
StableAudioOpenMini是什么StableAudioOpenMini是StabilityAI和Arm联合发布的轻量化文本到音频生成模型。该模型基于StableAudioOpen模型开发,...
DreamFit是什么DreamFit是由字节跳动团队与清华大学深圳国际研究生院及中山大学深圳校区共同推出的一款虚拟试衣框架,专注于轻量级服装为中心的人类图像生成。该框架通过优化文本提示和特征融合,有...
MinionAgent是一种Agent框架,支持浏览器操作、MCP(模型上下文协议)、自动规划和深度研究等功能。MinionAgent支持多种模型,并通过灵活的配置选项满足不同用户需求。用户可以使用简...
AG-UI(Agent-UserInteractionProtocol)是一种开源的、轻量级的、基于事件的协议,旨在标准化AIAgent与前端应用之间的交互。AG-UI定义了16种标准事件类型,支持多...
Seed1.5-VL是什么Seed1.5-VL是字节跳动Seed团队最新发布的视觉-语言多模态大模型,具备强大的通用多模态理解和推理能力,推理成本显著降低。模型由一个532M参数的视觉编码器和一个20...
MCA-Ctrl(多方协同注意力控制)是由中国科学院计算技术研究所和中国科学院大学推出的一款用于图像定制生成的框架。它利用文本和复杂视觉条件生成高质量图像。MCA-Ctrl采用了两种注意力控制策略:自...
AgentCPM-GUI是一款由清华大学和面壁智能团队共同开发的开源端侧GUIAgent,专为中文应用进行了优化。该模型基于MiniCPM-V(80亿参数)构建,能够接受智能手机截图作为输入,并自主执...
PrimitiveAnything是什么PrimitiveAnything是腾讯人工智能平台部(AIPD)与清华大学合作开发的一款创新的3D形状生成框架。它通过将复杂的3D形状分解成简单的基元元素,并...
XianyuAutoAgent是一种为闲鱼平台量身定制的智能客服机器人系统。它能够提供7×24小时的自动化服务,通过多专家协同决策、智能议价以及上下文感知对话,提升卖家的运营效率。该系统利用上下文感知...
LegoGPT是一款由卡内基梅隆大学开发的基于文本提示生成乐高积木设计的模型,能够创建物理稳定且可组装的乐高结构。LegoGPT通过自回归语言模型和大规模乐高设计数据集进行训练,根据用户提供的文本描述...
摩尔线程近期推出了Torch-MUSAv2.0.0版本,这是其针对PyTorch深度学习框架的MUSA扩展库的一次重大升级。新版本基于MUSAComputeCapability3.1计算架构,支持原生...
VoiceCanvas是一个开源的多语言语音合成平台,利用人工智能技术提供高质量的文字转语音服务。它支持超过50种语言,集成了包括OpenAITTS、AWSPolly和MiniMax在内的多种语音服务...
英特尔已正式停止对其DeepLink技术套件的支持。继英特尔悄悄停止在Battlemage等新产品中推广该功能后,该公司现已确认不再积极开发DeepLink。尽管用户仍可继续使用该技术,但英特尔明确表...