[转载][翻译]小型语言模型之战：Stable LM、Tiny LLama、Mini CPM与QWEN 1.5的较量 #57

Valdanitooooo · 2024-02-29T03:16:53Z

Valdanitooooo
Feb 29, 2024
Maintainer

原文：https://medium.com/@zaiinn440/best-slm-stable-lm-tiny-llama-mini-cpm-and-qwen-1-5-91134cfddbc3

以下为翻译：

SLM之战 (图片由原作者生成)

介绍

近期，小型语言模型（SLMs）已成为热门话题。每天都有不同模型发布，目标是在性能上匹敌大型语言模型（LLMs）。然而，在计算和内存成本方面，SLMs已经占据优势。最初它们被视为LLMs的小型版本，但现在情况已发生变化，SLMs日臻完善，其结果在某种程度上可与LLMs相媲美。问题随之而来：哪个SLM最好？ 为回答这个问题，我对比了四种小型语言模型（Stable LM、Tiny LLama、Mini CPM以及QWEN 1.5）的表现，并通过一系列针对不同自然语言处理任务的基准测试进行评估。这些任务包括情商评估、代码生成、文本摘要和叙事创作。根据评估结果发现，其中一种模型在所有任务中均表现出色，而另一种则表现不佳；其余两种模型彼此相当，生成的响应相似。

这个博客是我和我的同事Syed Hasan合作的。

SLM 的优点

在比较这些SLMs之前，我们需要了解SLMs相较于LLMs的优势，主要体现在以下几个方面：

更低的计算需求：SLMs通常资源消耗较低，对内存和计算能力的需求小于LLMs，这使得它们能够在资源有限的设备上使用，同时在原本计算资源受限的环境中也能发挥作用。
更快的训练时间：由于训练过程中需要优化的参数较少，SLMs通常比LLMs收敛速度更快，从而实现更快且更好的迭代过程。
成本节省：小型模型的训练和使用成本通常低于大型模型，或许可以降低许可费用，或者以极低的成本部署和维护小型模型。
适用于尖端设备：SLMs在资源有限硬件的尖端设备上的应用效果优于LLMs，例如智能手机、可穿戴设备和物联网设备等，这些设备需要优化计算以提供吸引用户的界面。

测试条件

为了确保公平性和一致性，在进行小型语言模型对比分析之前，满足了几项前提条件：

所有模型均需采用对话格式（聊天模型），能够与人类进行对话互动。
每个SLM的总参数数量不超过20亿，专注于真正紧凑的架构。
向每个模型提供相同的提示来完成每项任务，不考虑之前的对话历史或上下文，旨在最大限度减少偏差，确保SLM的响应完全基于给定输入。

遵循这些条件可能使SLMs产生无偏见的响应。尽管没有绝对完美，因此只能说“可能”。

比较

现在我们将对比以下四种SLMs在不同提示下的表现并给出评价及理由：

Stable LM-2 1.6B
Tiny LlaMA chat 1.1B
QWEN-1.5 chat 1.8B
MiniCPM-2B

评估标准包括情商、代码生成、文本摘要和叙事创作。

情商评估

我们使用了三个提示来进行情商评估：

Prompt 1: Examine the emotion and sentiment expressed in the following movie review excerpt: “The acting was superb, but the plot was predictable and lackluster.” Determine if the overall impression conveyed by the statement leans more towards being positive, negative, or neutral.

Prompt 2: Describe two scenarios where understanding customer emotions could significantly contribute to improving business outcomes. Suggest a potential solution involving emotion detection technology for each situation.

Prompt 3: Based on the weather conditions described below, predict the likely mood of the speaker: “A heavy blanket of clouds smothered the sky, casting an eerie gray pallor over the once vibrant cityscape. Raindrops pattered against windows with rhythmic monotony, creating a somber symphony that echoed the residents’ melancholic spirits.”

部分截图如下：

Stable LM-2 1.6B：在所有三个提示中，Stable LM的回答获得了9/10的评分，因为它保持了一致性，恰当地解析了提示，并给出了有深度的答案。
Tiny LlaMA chat 1.1B：该模型的回答得分为8/10，提供了准确答案，但过于简化，缺乏情商所需的重要深度。
QWEN-1.5 chat 1.8B：其回答同样获得与Stable LM-2相同的9/10评分，提供了详尽精确的答案并保持了平衡的视角。
MiniCPM-2B：对于第一个提示表现不佳（评分为7/10），但在剩余两个提示中的结果较为出色，均获得9/10评分。第一个提示得分低的原因是论据模糊，且模型对其回答不够自信。

叙事作文/故事写作

我们还针对一个特定的叙事创作提示进行了评估，并根据故事情节和各回应中包含的细节对回复进行了排名。

部分截图如下：

Prompt: In a sleepy town where nothing ever happens, ordinary citizens start developing extraordinary powers overnight — an elderly woman gains telekinesis, a schoolboy acquires super strength, and a timid girl suddenly becomes invisible. As everyone grapples with their newfound abilities, tensions rise, fueling fear and prejudice among neighbors. Write a poignant story exploring themes of acceptance, change, and community in this magical setting.

Stable LM-2 1.6B：评分为9/10，节奏一致，情感与行动的良好平衡，主题探索扎实。
Tiny LlaMA chat 1.1B：评分为8/10，展现了关于接纳、变化和社区的温馨描绘，虽然有些可预见但仍引人入胜，但在描述性和复杂副线方面还有提升空间。
QWEN-1.5 chat 1.8B：评分为6/10，语气存在差异，未能将情感成长与社区问题之间的联系起来。
MiniCPM-2B：评分为8/10，冲突解决、人物塑造和主题融合做得很好，微妙性和复杂性的运用有助于在揭示超能力前营造悬念。

代码生成

对于代码生成，我们在两个编程相关的提示上对模型进行了评估。

Prompt 1: Develop a lightweight microservice written in Go or Rust that resizes incoming JPG images to specified dimensions using OpenCV or any alternative computer vision library. Optimize the solution for minimal latency and memory footprint.

Prompt 2: Given a database schema consisting of two tables: “Orders” (OrderID int PRIMARY KEY, CustomerName varchar(50)) and “OrderDetails” (DetailID int PRIMARY KEY, OrderID int, ProductName varchar(50), Quantity int, UnitPrice decimal(18,2)), write an SQL query to retrieve the total revenue for each customer who has placed orders. Format the output as follows: CustomerName, TotalRevenue, where TotalRevenue represents the sum of all products’ prices multiplied by quantities ordered by that customer. Display customers with zero sales too. Sort the final result set alphabetically by customer name.

部分截图如下：

Stable LM-2 1.6B：评分为9/10，大部分情况下生成正确的代码，但在某些实例中留白供用户填写主逻辑部分。
Tiny LlaMA chat 1.1B：评分为6.5/10，在两个编码任务上表现不佳，特别是在SQL查询方面。
QWEN-1.5 chat 1.8B：评分为7/10，此模型对SQL查询的响应最差，但对于Go微服务任务表现相对较好。
MiniCPM-2B：评分为8.5/10，在两个提示上均有良好表现，对Go微服务任务的响应略好一些。

文本摘要

在文本摘要任务中，选取了一篇约4500词的网络文章进行评估。这篇文章是关于可植入脑芯片的伦理评估

部分截图如下：

Stable LM-2 1.6B：评分为7/10，虽几乎涵盖了原文所有要点，但在技术潜在社会影响方面有所遗漏。
Tiny LlaMA chat 1.1B：评分为8/10，覆盖了所有相关主题，并对原文中提出的一些问题增加了有价值的背景信息。
QWEN-1.5 chat 1.8B：评分为0/10，因模型固定上下文长度限制（2048）未生成文本。
MiniCPM-2B：评分为9/10，该模型生成的摘要最为出色，全面论述了主题，并就植入式脑芯片的伦理和社会含义提出了独到见解。

结论

经过对Stable LM-2、Tiny LLama、Mini CPM和QWEN 1.5的对比评估与性能测试后发现，Stable LM-2 在各项任务中表现最佳，其情商评估、编码练习、文本摘要和故事写作能力充分展示了其竞争力。

在本次评测的另一端，Tiny LLama的表现明显落后于竞争对手，在几乎所有任务中都未能超越其他模型。尽管偶尔展现出亮点，但它仍被认为是效率最低的模型。

至于Mini CPM和QWEN 1.5，研究表明两者在大多数测试中的表现相当接近。它们虽无法超越Stable LM-2，但在某些领域展现出了各自的特色。因此，可以根据实际应用场景需求或资源可用性，将二者结合使用。这意味着用户可以根据具体情况选择Mini CPM或QWEN 1.5，因为这两种模型在特定任务上都能发挥一定的优势。总的来说，虽然在综合表现上不及Stable LM-2，但它们各自在个别领域内具有值得挖掘的价值。

有关每个提示和详细回复的完整回复，请访问 Analysis Report.

Valdanitooooo · 2024-02-29T03:33:21Z

Valdanitooooo
Feb 29, 2024
Maintainer Author

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[转载][翻译]小型语言模型之战：Stable LM、Tiny LLama、Mini CPM与QWEN 1.5的较量 #57

{{title}}

Replies: 1 comment

{{title}}

Select a reply

[转载][翻译]小型语言模型之战：Stable LM、Tiny LLama、Mini CPM与QWEN 1.5的较量 #57

Valdanitooooo Feb 29, 2024 Maintainer

介绍

SLM 的优点

测试条件

比较

情商评估

叙事作文/故事写作

代码生成

文本摘要

结论

Replies: 1 comment

Valdanitooooo Feb 29, 2024 Maintainer Author

Valdanitooooo
Feb 29, 2024
Maintainer

Valdanitooooo
Feb 29, 2024
Maintainer Author