(重新开贴)国产coding plan速率测评(暂速率,其他自动化评测开发中)

国产替代 人工智能 公益推广
查看原帖
hlool
hlool 楼主
#1

本帖使用社区公益推广,符合推广要求。我申明并遵循社区要求的以下内容:

  • 我的项目是免费使用的,无收费(变相收费、赞助)部分:
  • 我的帖子已经打上 公益推广 标签:
  • 我的项目属于个人项目,与公司或商业机构无关:
  • 我的项目不存在QQ、TG等群组引流:
  • 我的项目不存在非运营必要的网站引流:
  • 我的项目不存在为他人推广、AFF:
  • 我的项目无关联的商业项目:
  • 我的站点存在登录,并已接入 LINUX DO Connect:
  • 我帖子内的项目介绍,AI生成、润色内容部分已截图发出:
  • 以上选择我承诺是永久有效的,接受社区和佬友监督:

以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出


背景

书接上文,龙虾 Agent 泛滥,国内 AI 逐渐从免费转向收费,并且有向 Token Plan 转变的倾向。

正值此时刻,本人自费购买了国产几乎所有 Coding Plan。


:clipboard: 已覆盖平台

平台状态备注
讯飞星辰:white_check_mark: 已采购
百炼 (阿里云):white_check_mark: 已采购
Kimi:white_check_mark: 已采购
MiniMax:white_check_mark: 已采购
阶跃星辰:white_check_mark: 已采购
火山引擎:white_check_mark: 已采购
智谱:white_check_mark: 已采购
无问芯穹:white_check_mark: 已采购
腾讯云:cross_mark: 未采购耍猴
优云:white_check_mark: 已采购
京东云:white_check_mark: 已采购
联通云:white_check_mark: 已采购
联通元景:cross_mark: 未采购售罄
移动云:white_check_mark: 已采购
百度云 (千帆):white_check_mark: 已采购
小米 MiMo:white_check_mark: 已采购
天翼云:white_check_mark: 已采购

:white_check_mark: 当前评测状态

  • :white_check_mark: 速率拨测自动化:采用中间值计算,可信度高,真实反映用户体验速率

:construction: 后续更新计划

  1. 前端优化:支持用户评价显示
  2. 公益在线对话:将除拨测外的保留资源开放,供大家公益使用
  3. 自动化多维评测:前端 / 写作 / 上下文 能力评测

以上计划均在规划中,即将上线


:link: 拨测站点

为国内服务器,不用翻,后续完善后我再放海外(主要因为不是每个厂家都支持海外调用)


:light_bulb: 声明

从始至终没有要求过任何资金捐赠,仅有使用过元景(无法购买)的朋友捐赠过 Key(目前已失效)。

TOPIC OWNER
23 楼层
22 回复
14 用户
hlool kotel killer 23375 fakecat
killer
killer
#4

我有一个疑问啊,为什么 MiniMax 2.7 的分数比 2.5 还低呀?:joy:

但是我实际使用起来的话,我发现 2.7 应该是远比 2.5 要强的呀

1个回复
hlool
hlool 楼主

速率,证明2.7的算力不足,或者模型参数大,所以慢,也可能是用的人多,多种原因

TOPIC OWNER
↓ 跳到帖子
Epresin
#5

佬的智谱是什么套餐?pro吗?如果需要测max我这边可以提供一个key

1个回复
hlool
hlool 楼主

目前拨测用pro刚好,用量够,切模型全
暂时不需要捐赠,如果按照佬这样的想法,需求的量就很大了,每个coding都有多个档位 :distorted_face:
为了你的key,我得多花好几千
:distorted_face:
谢谢佬的好意,后续我们完善了有能力了再要 :saluting_face:

TOPIC OWNER
↓ 跳到帖子
23375
23375
#6

可以顺便测一下降智,看看同一个题库不同时间准确率

1个回复
hlool
hlool 楼主

在备了,我们想要的,所有的自动化题目都是佬友们可以直观看到的
例如前端能力,直接看编程作品
写作能力,直接看写作的作品
上下文能力,大海捞针,然后给热力图反馈都找到几个

主要想让大家直观的看到模型强度

TOPIC OWNER
↓ 跳到帖子
hlool
hlool 楼主 ↶ @Epresin
#7

目前拨测用pro刚好,用量够,切模型全
暂时不需要捐赠,如果按照佬这样的想法,需求的量就很大了,每个coding都有多个档位 :distorted_face:
为了你的key,我得多花好几千
:distorted_face:
谢谢佬的好意,后续我们完善了有能力了再要 :saluting_face:

TOPIC OWNER
hlool
hlool 楼主 ↶ @23375
#8

在备了,我们想要的,所有的自动化题目都是佬友们可以直观看到的
例如前端能力,直接看编程作品
写作能力,直接看写作的作品
上下文能力,大海捞针,然后给热力图反馈都找到几个

主要想让大家直观的看到模型强度

TOPIC OWNER
hlool
hlool 楼主 ↶ @killer
#9

速率,证明2.7的算力不足,或者模型参数大,所以慢,也可能是用的人多,多种原因

TOPIC OWNER
2021_momo
2021_momo
#11

讯飞星辰这么猛么

1个回复
hlool
hlool 楼主

看了下记录,讯飞用的是kimi-k2.5模型评测,是从3.31开始猛的,没用glm-5
因为讯飞仅支持在他网页控制台调整,所以只有测这一个模型

TOPIC OWNER
↓ 跳到帖子
hlool
hlool 楼主 ↶ @2021_momo
#13

看了下记录,讯飞用的是kimi-k2.5模型评测,是从3.31开始猛的,没用glm-5
因为讯飞仅支持在他网页控制台调整,所以只有测这一个模型

TOPIC OWNER
TechnologyStar
TechnologyStar
#14

貌似不可以挂coding plan的aff吧,但是可以apikey类型的捐赠

1个回复
hlool
hlool 楼主

(帖子已被作者删除)

TOPIC OWNER
↓ 跳到帖子
Forza_Milan
Forza_Milan ↶ @hlool
#20

确实得把购买链接删掉,有些有aff,会带来麻烦

1个回复
hlool
hlool 楼主

已经在删除了,稍等下,codex在帮我洗刷刷了

TOPIC OWNER
↓ 跳到帖子