
GPT-4o Mini 是 OpenAI 最新推出的小型智能模型,专为高性能和低成本的人工智能解决方案而设计。它支持文本、视觉、音频等多模态输入输出,响应速度极快,适用于实时应用场景。GPT-4o Mini 在数学推理和编码任务上表现出色,并且能够处理大量上下文信息。其价格比之前的模型便宜一个数量级,每百万输入 token 仅需 15 美分,每百万输出 token 60 美分。无论是内容创建、问题解决、复杂数据分析还是代码生成,GPT-4o Mini 都能提供卓越的性能和经济的解决方案。 GPT-4o Mini:OpenAI 最新推出的高效、经济的小型模型 GPT-4o Mini的评测 GPT-4o mini 在文本智能和多模态推理方面的学术基准测试中都超过了 GPT-3.5 Turbo 和其他小型模型,并支持与 GPT-4o 相同的语言范围。它还在函数调用方面表现出强大的性能,这使开发人员能够构建获取数据或使用外部系统执行操作的应用程序,并且与 GPT-3.5 Turbo 相比,它提高了长上下文性能。 GPT-4o mini 已在几个关键基准测试中进行了评估 。 推理任务:GPT-4o mini 在涉及文本和视觉的推理任务方面优于其他小型模型,在文本智能和推理基准 MMLU 上得分为 82.0%,而 Gemini Flash 为 77.9%,Claude Haiku 为 73.8%。 数学和编码能力:GPT-4o mini 在数学推理和编码任务方面表现出色,优于市场上以前的小型型号。在 MGSM 上,衡量数学推理,GPT-4o mini 得分为 87.0%,而 Gemini Flash 为 75.5%,Claude Haiku 为 71.7%。GPT-4o mini 在衡量编码性能的 HumanEval 上得分为 87.2%,而 Gemini Flash 为 71.5%,Claude Haiku 为 75.9%。 多模态推理:GPT-4o mini 在多模态推理评估 MMMU 上也表现出强劲的表现,得分为 59.4%,而 Gemini Flash 为 56.1%,Claude Haiku 为 50.2%。 定价 GPT-4o mini 现在可在 Assistants API、Chat Completions API 和 Batch API 中用作文本和视觉模型。开发人员每 1M 输入令牌支付 15 美分,每 1M 输出令牌支付 60 美分(大约相当于一本标准书中的 2500 页)。我们计划在未来几天内推出 GPT-4o mini 的微调。 在 ChatGPT 中,Free、Plus 和 Team 用户将从今天开始访问 GPT-4o mini,而不是 GPT-3.5。从下周开始,企业用户也可以使用,这符合我们的使命,即让所有人都能享受人工智能的好处。
数据统计
相关导航

Claude是Anthropic公司发布的一款大型语言模型(LLM)。能够检测和回避潜在的陷阱,如逻辑错误、不恰当的内容、重复性和无聊等。具有高级推理、视觉分析、代码生成、多语言处理、多模态等能力,可以生成文本、翻译语言、编写不同类型的创意内容,并以信息丰富的方式回答问题。

M2UGen
M2UGen是一个由腾讯和新加坡国立大学共同研发的多模态音乐生成模型,它具备音乐生成、理解和编辑的能力。具体来说,M2UGen可以接收文字、图片、视频或音频作为输入,然后生成与之相匹配的音乐。例如,给它一段文字,如诗句或故事,它能够创作出与文字内容相应的音乐;对于图片,它能创作出匹配的音乐,让图片仿佛“动起来”;对于视频,它可以根据视频内容创作出合适的背景音乐。

CatVTON
CatVTON是一款基于扩散模型的虚拟试穿技术工具,旨在提供高效、低资源需求的虚拟试穿体验。通过在空间维度上简单地拼接服装和人物图像来实现不同类别服装的虚拟试穿,该方法有效地降低了模型复杂度和计算成本,同时保持了高质量的虚拟试衣效果,特别适用于电商平台、时尚设计、个人造型顾问、增强现实应用和虚拟时装秀等场景。

Hibiki
Hibiki是一个Kyutai Labs开发的一个用于流式语音翻译(也称为同步翻译)的模型。与离线翻译不同,离线翻译需要等待源语句结束后才开始翻译,而 Hibiki 能够实时积累足够的上下文,以逐块生成正确的翻译。用户在讲话时,Hibiki 会在目标语言中生成自然的语音,并提供文本翻译。

GPT-4o mini
GPT-4o Mini 是 OpenAI 最新推出的小型智能模型,专为高性能和低成本的人工智能解决方案而设计。它支持文本、视觉、音频等多模态输入输出,响应速度极快,适用于实时应用场景。

RAGFlow
RAGFlow是一款开源的检索增强生成(RAG)引擎,专为深入理解文档而设计。它为各类企业和个人提供简洁高效的RAG工作流程,与大语言模型(LLM)相结合,针对各种复杂格式的数据提供可靠的问答及有依据的引用。RAGFlow非常适合需要动态内容生成且依赖外部知识库的场景,如智能客服、文档生成和数据分析等,助力用户高效挖掘大量数据中的有价值信息。

Phantom
Phantom是由字节跳动推出的一款创新视频生成框架,专注于主体一致性的视频生成任务(Subject-to-Video, S2V)。它通过跨模态对齐技术,将文本和图像提示结合起来,从参考图像中提取主体元素,并生成与文本描述一致的视频内容。

PixArt-Σ
PIXART-Σ是华为推出的图像生成模型,由华为诺亚方舟实验室、大连理工大学和香港大学的研究团队开发。采用Diffusion Transformer (DiT) 架构,专用于生成 4K 分辨率的 AI 图像。用户只需输入一段文字描述就能生成具有4K高分辨率的图像,相较于前身PixArt-α,它提供了更高的图像保真度和与文本提示更好的对齐。
暂无评论...