SmolLM-HuggingFace发布的高性能小型语言模型

AI视频
24年9月11日
编辑

admin

2024-07-22 18:21:35,

SmolLM是什么？

SmolLM是由 Huggingface 最新发布的一系列最先进的小型语言模型，有三种规格：1.35亿、3.6亿和17亿个参数。这些模型建立在 Cosmo-Corpus 上，Cosmo-Corpus 是一个精心策划的高质量训练数据集。Cosmo-Corpus 包括 Cosmopedia v2（由 Mixtral 生成的 280 亿个合成教科书和故事词块）、Python-Edu（由 The Stack 提供的 40 亿个 Python 教育样本词块）和 FineWeb-Edu（由 FineWeb 提供的 2200 亿个重复教育网络样本词块）。

SmolLM模型适合需要在本地设备上运行语言模型的开发者和研究人员。它们特别适合那些需要在资源受限的环境中进行高效推理的应用场景，如智能手机、笔记本电脑等。

SmolLM的测试结果

Hugging Face 团队将开发出的 SmolLM 模型与相同参数量的其他模型进行了基准测试，其中 SmolLM-135M 在多项测试中超越了小于 2 亿参数的其他模型；而 SmolLM-360M 的测试成绩优于所有小于 5 亿参数以下的模型，不过某些项目逊于 Meta 刚刚公布的 MobileLLM-350M；SmolLM-1.7B 模型则超越了所有参数量小于 20 亿参数的模型，包括微软 Phi-1.5、MobileLLM-1.5B 及 Qwen2。

在不同的推理和常识基准上评估 SmolLM 模型

如何使用SmolLM？

SmolLM项目地址：https://huggingface.co/blog/smollm
SmolLM模型合集：https://huggingface.co/collections/HuggingFaceTB/smollm-6695016cad7167254ce15966
数据集地址：https://huggingface.co/datasets/HuggingFaceTB/smollm-corpus

温馨提示：

文章标题：SmolLM-HuggingFace发布的高性能小型语言模型

文章链接：https://yuntunft.cn/40436.html

更新时间：2024年09月11日

给TA打赏

共{{data.count}}人

人已打赏

AI模型 AI训练模型 huggingface

Step-1V是什么？ Step-1V是一款由阶跃星辰研发的千亿参数多模态大模型，该模型在多个领域表现出色，特别是在图像理解、多轮指令跟随、数学能力、逻辑推理和文本创作等方面。另外，阶跃星辰还推出了两款面向C端用户的大模型产品——效率工具“跃问”和AI开放世界平台“冒泡鸭”，均已全面开放使用。在线体验：https://stepchat.cn/ 开放平台：https://platform.stepfun.com/ Step-1V的主要能力多模态理解能力 Step-1V模型的一个显著特点是其多模态理解能力。这意味着它不仅能够处理文本数据，还能够理解和分析图像、视频等多种类型的数据。这种能力使得Step-1V在处理复杂任务时更加灵活和高效，因为它可以从不同的数据源中提取信息并进行综合分析。逻辑推理能力 Step-1V具备极强的逻辑推理能力，这使得它能够自主调用搜索引擎和外部工具来实现复杂的推理任务。这种能力对于解决需要深入分析和逻辑判断的问题至关重要，例如在进行科学研究、法律分析或策略规划时。超长文本理解 Step-1V模型能够精确地理解超长文本，即使在大量信息中也能准确定位关键信息。这种能力对于处理大量的文献资料、报告或数据集非常有用，可以帮助用户快速找到所需信息，提高工作效率。内容生成 Step-1V模型还可以结合图像输入来生成文本内容。例如，用户可以提供一张图片，Step-1V能够根据图像内容生成相应的文案或描述。这对于广告创意、社交媒体内容制作、新闻报道等领域非常有价值。 Step-1V的应用场景 Step-1V作为一款千亿参数的多模态大模型，其应用场景非常广泛，覆盖了从个人使用到企业级应用的多个方面。以下是一些具体的应用场景：内容创作：自动生成文章、博客、社交媒体帖子等文本内容。为广告和营销活动生成吸引人的图像和文案。创作小说、剧本和其他文学作品。教育与学习：制作个性化的学习材料和课程内容。辅助教师准备教学资料，如幻灯片、教案等。作为学生的学习助手，提供定制化的信息和解释。艺术与设计：辅助艺术家和设计师创作视觉艺术作品。生成设计概念的初步草图和视觉原型。为产品设计和工业设计提供视觉化的概念验证。媒体与娱乐：为电影、电视和游戏制作提供概念艺术和视觉特效。创造虚拟角色和故事情节，用于互动媒体和虚拟现实体验。商业智能与分析：分析市场趋势和消费者行为，为企业提供决策支持。通过文本和图像分析，进行竞争对手研究和行业报告。客户服务与支持：自动化的客户服务，提供24/7的即时响应。通过多模态理解，提供更加人性化和有效的客户互动。搜索引擎优化：生成针对搜索引擎优化（SEO）的高质量内容。分析用户查询，提供更加精准的搜索结果。研究与开发：协助科研人员分析大量数据，加速研究进程。在药物发现和材料科学中，预测和模拟实验结果。法律与合规：辅助法律专业人士进行文档审查和案例研究。通过文本分析，确保合规性和风险管理。健康医疗：辅助医疗专业人员进行病例分析和诊断支持。生成医学教育材料，如解剖图和病理图像的解释。 Step-1V模型的这些应用场景展示了其在多个领域的潜力，能够极大地提高工作效率、创新能力和决策质量。随着技术的不断进步，Step-1V的应用范围和深度还将继续扩展。如何试用和体验Step-1V？阶跃星辰提供了试用链接，感兴趣的用户可以通过该链接申请体验Step-1V模型的强大功能。通过实际体验，用户可以更深入地了解Step-1V在实际应用中的表现。总的来说，Step-1V是一个功能强大的多模态AI模型，它通过理解和生成不同类型的数据，为用户提供了广泛的应用可能性，从而极大地扩展了人工智能在各个领域的应用前景。

24年7月1日024

Genie是什么？ Genie是一个由Google发布的根据互联网视频训练的AI基础世界模型，中文意思为“精灵”。它是基于Google DeepMind的最新成果，采用了最先进的视频生成模型的思想，核心设计采用了时空变换器。Genie是第一个通过未标记互联网视频以无监督方式训练的生成式交互环境，能够接收文本提示、合成图像、照片甚至草图或想法，并生成无数种动作可控的、能够互动的虚拟世界环境。尽管Genie已经展示了其强大的能力，但它目前仍处于研究预览阶段，这意味着它还在不断的开发和完善中，以达到更广泛的应用和更高的性能水平。了解更多详情：项目地址：https://sites.google.com/view/genie-2024/home 论文地址：https://arxiv.org/abs/2402.15391 Genie的模型规模及技术架构 Genie的模型规模及技术架构具有以下特点：模型规模：Genie拥有110亿参数，属于一个大规模的AI模型。这使得它能够处理复杂的数据和生成高质量的交互式虚拟环境。训练数据：Genie通过网络上超过20万小时的2D游戏视频进行训练，这些视频提供了丰富的动作和交互数据，帮助模型学习如何生成和控制虚拟环境。值得注意的是，这一训练过程是在无监督和无标签视频的情况下进行的，展示了模型强大的学习能力。技术架构：基础架构：Genie的底层基于ViT（Vision Transformer），采用了一套内存高效的ST-transformer架构，这包含了时空注意力机制。关键组件：时空视频分词器：用于处理视频数据，将视频分割成可以被模型理解和处理的小块。因果动作模型（LAM，基于像素）：这是一个关键的创新点，允许模型学习和推断动作的因果关系，而不仅仅是动作本身。动力学模型（基于视频token）：用于理解和模拟物理世界中的动力学行为，如物体的运动和相互作用。 Genie的这一技术架构和模型规模使其成为一个强大的工具，能够生成复杂且高度互动的虚拟世界，为用户提供前所未有的体验，并为AI领域的发展开辟新的可能性。 Genie可以做什么？无需行动标签的学习控制：Genie能够通过分析大量的公开互联网视频学会精细的控制技巧，识别可控制的图像部分，并推断出在各种生成环境中一致的潜在动作。激发新一代内容创作者：Genie为内容创作者提供了新的工具和方法，使得仅需一张图像即可创造出全新的交互环境，降低了创造复杂虚拟环境的门槛。训练通用型AI代理：Genie不仅提供了创造交互式环境的能力，还为AI研究提供了一个有价值的资源，促进了通用型AI代理的发展。跨领域应用：Genie是一个通用方法，适用于多个领域，不需要任何额外的领域知识，其潜在应用范围非常广泛。 Genie适用人群内容创作者和游戏开发者：可以使用Genie快速原型设计和实现他们的创意，通过结合最先进的文本到图像生成模型，创作者可以将文本描述转换成图像，然后使用Genie为这些图像赋予交互性和可玩性。 AI研究人员：Genie为AI研究提供了一个有价值的资源，通过在不断生成的新世界中训练，未来的AI代理可以在多样化的环境下学习和适应。跨领域专业人士：由于Genie的通用性，它适用于多个领域的专业人士，包括但不限于游戏设计、教育、模拟训练等领域，为他们提供了一个强大的工具来创造和探索虚拟世界。总之，Genie模型的出现不仅为用户提供了创新的交互体验和内容创作的新方法，也为AI研究和跨领域应用开辟了新的道路，预示着AI技术在生成交互式虚拟环境方面的巨大潜力和未来的发展方向。

24年7月1日033

一、HuggingChat是什么？ HuggingChat是国外知名机器学习社区Huggingface发布的开源AI聊天机器人。 HuggingChat 旨在成为 OpenAI 的 ChatGPT 的第一个真正的开源替代品，并且可以免费使用，无需注册账号，直接体验。使用地址：https://huggingface.co/chat/ HuggingChat这款机器人类似于ChatGPT，用户可以请求自然语言或以特定格式生成文本；HuggingChat响应速度快，性能与GPT-3.5-turbo大致相当。 Hugging Face 有机器学习领域的 "GitHub" 之称，其社区托管了极其丰富的机器学习资源，包括超过 100,000 个预训练模型和 10,000 个数据集。因此许多人都对它即将开源的 HuggingChat 寄予厚望，甚至有人说，如果 OpenAI 的 ChatGPT 是 iPhone，那么 HuggingChat 就是 Android。二、HuggingChat可以做什么？在功能方面，HuggingChat和ChatGPT类似，也可以写代码，可以写邮件等等。三、隐私方面在隐私方面，当前版本的HuggingChat不会根据Hugging Face存储任何聊天数据，也没有用户账号。HuggingChat 无权访问任何现有的 Hugging Face 帐户。将来，可能会选择与模型提供者共享聊天数据以进行优化。四、产品价值 Hugging Face说道: 我们不会止步于复制 ChatGPT。我们希望构建未来的助手，不仅能够编写电子邮件和求职信，还能做有意义的工作、使用 API、动态研究信息等等，并且能够由任何人进行个性化和扩展。我们希望以一种开放和可访问的方式来做到这一点，这意味着我们不仅要构建一个出色的助手，还要使其足够小且高效以在消费类硬件上运行。 Hugging Face的开源工具已成为人工智能社区中不可分割的组成部分，并为开发人员快速公开分享AI模型提供了重要的渠道。作为可能成为ChatGPT替代品的Hugging Chat，给用户提供了更多选择的机会。因此，这个项目对于开发人员和AI的应用具有重要价值。

24年7月2日022

❯

解锁会员权限

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部