
Tarsier是由字节跳动研发的大规模视频语言模型家族,旨在生成高质量的视频描述,并具备良好的视频理解能力。Tarsier 采用了简单的模型结构,结合了 CLIP-ViT 编码帧和 LLM 模型来建模时间关系。通过精心设计的两阶段训练策略,Tarsier 展现出了强大的视频描述能力和视频理解能力,在多个公共基准测试中取得了最先进的成果。 Tarsier 模型适用于各种视频理解任务,如视频字幕生成、视频问答和视频定位等,能够处理复杂的视频内容并生成详细准确的描述。 Tarsier:字节跳动推出的大规模视频语言模型家族 Tarsier的主要功能特色 高质量视频描述:Tarsier 能够生成详细、准确的视频描述,通过多任务预训练和多粒度指令微调,显著提升了视频描述的能力。 视频理解能力:Tarsier 在多个公开基准测试中取得了新的最佳结果,包括视频问答、视频地面、幻觉测试等任务。 简单的模型结构:Tarsier 使用 CLIP-ViT 作为视觉编码器,LLM 作为文本解码器,通过 MLP 层连接两者,实现了独立编码帧并输入 LLM 的方法。 两阶段训练策略:Tarsier 采用多任务预训练和多粒度指令微调的策略,提高了模型的泛化能力和视频描述的质量。 新的视频描述基准:Tarsier 提出了 DREAM-1K 基准,包含 1000 个具有多样复杂性的视频片段,用于评估视频描述模型的质量。 Tarsier模型的最新版本Tarsier2在多个方面进行了显著的改进,特别是在数据量和多样性方面。预训练数据从1100万扩展到4000万视频文本对,增强了模型的学习能力。此外,Tarsier2在监督微调阶段引入了细粒度时间对齐,进一步提高了视频描述的准确性和细节捕捉能力。通过直接偏好优化(DPO)训练,Tarsier2能够生成更符合人类偏好的视频描述,减少生成幻觉的可能性。 在性能评估方面,Tarsier2在DREAM-1K基准测试中表现出色,其F1分数比GPT-4o高出2.8%,比Gemini-1.5-Pro高出5.8%。在15个公共基准测试中,Tarsier2取得了新的最佳结果,涵盖视频问答、视频定位、幻觉测试和问答等功能,展示了其作为强大通用视觉语言模型的多功能性。 论文:https://arxiv.org/abs/2501.07888 Code: https://github.com/bytedance/tarsier Dataset: https://huggingface.co/datasets/omni-research/DREAM-1K Demo: https://huggingface.co/spaces/omni-research/Tarsier2-7b
数据统计
相关导航

Tora 是阿里团队推出的一个视频生成模型,能够根据轨迹、图像、文本或其组合,快速生成精确运动控制的视频。它支持多种输入方式,如轨迹、文本和图像,并能生成高分辨率、运动可控的视频。

盘古大模型
盘古大模型 3.0 是一个面向行业的AI大模型系列,包含自然语言、视觉、多模态、预测、科学计算大模型等五个基础大模型,可以为用户提供知识问答、文案生成、代码生成,以及多模态大模型的图像生成、图像理解等能力。

ClotheDreamer
ClotheDreamer 是一种基于 3D 高斯方法的工具,用于从文本提示生成可穿戴的、可生产的 3D 服装资产。由上海大学、上海交通大学、复旦大学和腾讯优图实验室共同推出。它采用了一种名为 Disentangled Clothe Gaussian Splatting (DCGS) 的新型表示方法,使得服装和人体模型可以分别优化。

Seed-TTS
Seed-TTS是由字节跳动开发的一系列大规模自回归文本到语音(TTS)模型。它能够生成高度自然、与人类语音几乎无法区分的语音。这个模型特别擅长学习语音上下文、说话人相似度和自然度等方面的特征,从而产生质量极高的语音输出。

Veo
Veo 是 Google DeepMind 开发的一种先进的视频生成模型。它能够生成1080p高分辨率、长时长的高质量视频。Veo 支持多种电影和视觉风格,能够准确捕捉文本提示的细微差别,并提供创意控制。这个模型旨在使视频制作更易于访问,并在叙事、教育等领域开启新的可能性。

Hibiki
Hibiki是一个Kyutai Labs开发的一个用于流式语音翻译(也称为同步翻译)的模型。与离线翻译不同,离线翻译需要等待源语句结束后才开始翻译,而 Hibiki 能够实时积累足够的上下文,以逐块生成正确的翻译。用户在讲话时,Hibiki 会在目标语言中生成自然的语音,并提供文本翻译。

Goku
Goku 是一个基于流生成的视频生成基础模型,由香港大学和字节跳动研究团队共同开发。Goku 模型主要用于生成高质量的视频内容,尤其在广告和营销场景中表现尤为出色。

文心千帆
文心千帆是百度智能云推出的产业级知识增强大模型,包括基础大模型、任务大模型、行业大模型,以及丰富的工具与平台,支撑企业与开发者进行高效便捷的应用开发。它能够从海量数据和大规模知识中融合学习,效率更高,效果更好,具备知识增强、检索增强和对话增强的技术特色。
暂无评论...