数据集

共 5 篇网址

排序

发布更新浏览点赞

FineWeb2

FineWeb2是由Hugging Face提供的一个大规模多语言预训练数据集，覆盖超过1000种语言。该数据集经过精心设计，用于支持自然语言处理(NLP)模型的预训练和微调，特别是在多种语言上。它以其高质量、大规模和多样性而闻名，能够帮助模型学习跨语言的通用特征，提升在特定语言任务上的表现。FineWeb2在多个语言的预训练数据集中表现出色，甚至在某些情况下，比一些专门为单一语言设计的数据库表现更好。

0490

数据分析 # Hugging Face # NLP # 多语言

OLMo 2 1124 13B Preference Mixture

OLMo 2 1124 13B Preference Mixture是一个由Hugging Face提供的大型多语言数据集，包含377.7k个生成对，用于训练和优化语言模型，特别是在偏好学习和指令遵循方面。该数据集的重要性在于它提供了一个多样化和大规模的数据环境，有助于开发更加精准和个性化的语言处理技术。

0360

数据分析 # 偏好学习 # 多语言 # 指令遵循

和鲸社区

和鲸社区是数据科学实践社区，帮助数据人才在交流中享受学习，在实践中快速成长。众多数据科学从业者及爱好者在这里分享开源代码、复现实战案例、参与数据竞赛、记录成长历程

0340

综合其他 # itotii导航 # ModelWhale # Notebook

飞桨AI Studio

打赏赞微海报分享

0720

AI学习网站 AI工具导航 # AI Studio # AI技术圈 # AI社区

镝数聚

短视频行业发展趋势、人才技能要求、内容价值洞察等相关分析解读

013.1K0

数据分析 # 体育数据 # 大数据 # 娱乐数据