您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [未知机构]:幻方大模型20240509 - 发现报告

幻方大模型20240509

2024-05-09 未知机构 Joken Hu
报告封面

我们先简单了解一下 DeepSeek 模型的能力。 通过投屏, 向各位领导展示 DeepSeek 的整体 能力水平。 我们可以看到, 商汤科技的股价曾因采用 MOE 架构而大幅上涨, 排名迅速 上升。 从目前的模型排名来看, DeepSeek 也表现出色, 仅次于通义千问模型。 近期, 许多模型公司的技术能力突飞猛进, 很大程度上是因为中国公司开始采用 MOE 架 构。 例如, 腾讯的混元模型去年表现不佳, 今年却跃升至首位。 商汤科技也有显著提升, 从之前 的测试中十题全错, 到现在能答对五题。 但由于访问量过大, 性能有所降低, 最终稳定在 2.8 左右。 通义千问模型今晚发布, 预计准确率在 10 的负 5 次方左右。 DeepSeek 作为二级市场公司的产品, 能力显著, 尤其在数学和编程方面, 排名靠前。在 五 道题中答对四道, 显示出其实力。 此外, 拉玛 3 模型在海外市场表现出色, 参数量达 700 亿, 数学能力准确率约为 20%,编程 能力则达到了 55-4。 国内模型的提升可能部分得益于拉玛 3 的代码能力。在成本方面, DeepSeek 的 API 价格已经达到百万 token 的级别, 与 GPT-4 相比, 成本降低 了 100 倍。 GPT-3.5 的成本约为 104, 而 Kimi 的成本约为 24, 拉玛 3 的成本为 82。DeepSeek 的成本优势主要得益于 MOE 架构的应用, 使得在推理时仅使用了 210 亿参数,而整个模型 相当于两千多亿参数。 与 GPT-3.5 相比, DeepSeek 的参数量和算力成本更为 接近。 GPT-4 之所以价格昂贵, 可能是因为其在推理时使用了相当于四个 GPT-3.5 模型的 资源。 正 常情况下, GPT-4 的推理成本应该是 GPT-3.5 的四倍左右。 DeepSeek 的出现可 能会推动 GPT-4 的 API 价格下降, 这对行业发展非常有利。总的来说, 中国公司在 MOE 架构的支持下取得了显著进步, 而越来越低的成本可能会迫 使GPT-4 释放更多利润, 从而促进应用的爆发。 接下来, 我们将对 DeepSeek模型进行更 深入 的测评, 同时对比 GPT-4.0 的水平。我们的测试题目主要分为数学题目, 因为模型在 3.5 版本之后, 文字和语言逻辑能力已无太 大差异, 而数学题目是唯一能准确测试模型能力的方式。 DeepSeek 在数学题目上表 现 出色, 尤其是在高速计算方面。 我们会对 DeepSeek 和通义千问 2.5 进行测试, 以评估它 们的实际 水平。 2、 阿里通义与 DeepSeek 性能对比在对比阿里通义 2.5 与 DeepSeek v2 的性能时, 我们注意到两者在处理速度上相差无几,这 表明两家公司在算力储备方面都有所准备, 能够应对当前的需求。 尽管在某些情况 下, 处理 速度可能略慢, 但整体而言, 两家公司在算力上的波动和不稳定性仍然存在。在具体的测试中, 我们发现阿里通义 2.5 在某些数学题目的解答上出现了错误, 而 DeepSeek v2 则展现出了较好的准确性。 例如, 在一道数学题中, DeepSeek v2 给出了正 确答案 E, 而 阿里通义 2.5 在之前的错误之后, 也正确解答了题目。此外, 我们还观察 到, 尽管阿里通义 2.5 在某些题目上的速度较慢, 但公司在能力上仍然表现出色。在进一步的测试中, 我们选取了一些具有较高区分度的题目, 以评估阿里通义 2.5 和 DeepSeek v2 的性能。 结果显示, DeepSeek v2 在处理这些题目时表现出色, 而阿里通义 2.5 在某些题目上的正确率也有所提升。 特别是在一道概率题上, DeepSeek v2 成功解 答, 而阿 里通义 2.5 则在统计过程中出现了错误。我们还注意到, 一些海外模型在这些题目上的表现并不理想, 即使是那些声称达到吉尼斯 水 平的模型, 如 cloud 3, 也未能全部正确解答。 然而, DeepSeek v2 在这些题目上的表 现却相 当出色, 这表明其在算法和架构上可能进行了有效的优化。在代码测试方面, 我们首先以贪吃蛇程序为例, 评估了两家公司的程序生成能力。 测试 结果显示, 阿里通义 2.5 和 DeepSeek v2 在程序生成和调试方面都展现出了较高的水平,能够在 短时间内生成并修正代码, 满足测试要求。综上所述, 阿里通义 2.5 和 DeepSeek v2 在算力储备、 题目解答和程序生成方面都表现出 了 各自的优势。 尽管存在一些波动和不稳定性, 但两家公司在提升性能和优化算法方面 都取得 了显著的进步。3、 阿里通义与 DeepSeek 模型性能对比在最近举行的“阿里通义 2.5 VS DeepSeek v2”投资交流会上, 我们对两款人工智能模型的性能进行了深入的测试和分析。 以下是会议讨论的要点:首先, 我们回顾了之前测试的一些情况。 在测试中, 我们注意到, 即使是一些相对简单 的任 务, 如生成财务记账单, 也往往需要多次尝试才能成功。 在国产车领域, 通常需要 尝试两到 三次才能达到预期效果。接下来, 我们分享了大型模型开发者在开发过程中的一些情况。 我们关注了模型的整体结 论,并检查了是否得出了预期的结果。 在测试中, 我们发现阿里通义 2.5 在第一次尝试 时出现了 错误, 但经过修改后, 表现有所改善。我们还注意到, 尽管阿里通义 2.5 在之前的测试中能够正确处理的题目较少, 但 DeepSeek v2 在处理速度上表现出了优势。 与商汤模型相比, DeepSeek v2 在多人访问时表现更为流 畅, 尽管这可能也与当前尝试的用户数量较少有关。在代码生成方面, 我们发现许多平台在生成代码时存在分段生成的问题, 需要手动拼接。我 们尝试了一步到位的代码生成, 但遇到了一些困难。 这可能是因为我们在参数设置上 需要进 行一些 调整。 我们还讨论了阿里通义 2.5 的“千问”功能, 发现它在多次尝试后能够成功完成任务, 但相比 之前的一次成功, 这次需要三次尝试。 总的来说, 我们认为 DeepSeek v2 在代码生成方面具有一定的优势, 尤其是在一次性生成 完 整代码方面。 我们期待进一步的测试和改进, 以提高用户体验。 4、 AI 模型成本与应用前景分析是的, 尽管之前尝试了五次都未能成功, 这次我们决定不再尝试。 现在, 让我们总结一 下, 重新聚焦于我们最初讨论的模型能力。 简单来说, DeepSeek 在当前的能力上已经迅 速达到 了行业领先水平。 采用 MOE 架构的这一批模型, 包括从华为的混元到商汤科技,再到阿里 巴巴的通义千问, 以及 DeepSeek, 基本都达到了 50%左右的数学准确率。 特别 是 DeepSeek, 其代码能力也显著提升,目前版本仅通过推理 2.11 亿参数就实现了出色的 效果, 这意味着 其推理成本相对较低, 对应用行业非常有利。 接下来, 让我们讨论价格。 在我们这个行业, 价格与参数量是正相关的。 众所周知,GPT-3.5 的成本大约是 14 元, 这已经接近成本价。 而 DeepSeek 由于只有 210 亿参数, 其 成本大约 是 GPT-3 的 1/6, 即大约 78 元。 这样算来,DeepSeek 的价格是 2 元, 而 GPT-3.5 是 14 元, 两者相差不大。那么, 为什么基于 GPT-4 的 API 价格会高出 100 倍, 达到 1%呢? 因为GPT-4 实际上是由 4 可能会降低头部公司 的 AI 价格, 对应用行业是一个较大的利好。 因此, 我们建议关注这些 AI 技术出现后, 国内 AI 应用的发展。 同时, 我们也可以看到, 随着 MOE架构的流 行, 中国模型的整体能力与海 外模型的差距已经非常小。 除了可能无法超越 Op enAI 之 外, 其他方面的差距并不大。 这也意味着, 国内在应用开发方面具有很大的优势, 只要工程化做得好。 一个简单的例子就 是我们之前提到的, 小米的 Turkey Key 已经开始取代其竞争对手。 这表明中国公司 在工程化 方面非常明显的优势。 这类似于上海临港的特斯拉工厂的效率与美国本土的特斯拉工厂的高 效率之间的差异。 这就是我们今天的结论。以上是我们的汇报。 感谢各位领导的聆听, 感谢大家参加本次电话会议。 会议到此结束, 祝 大家生活愉快。 再见。