说到AI,很多人会想到ChatGPT,而我们现在也有很多好用的国产AI大模子。 在2023年的中国,8个月内诞生了238个大模子,阿里、华为、腾讯、京东、字节、360、科大讯飞等一众大厂纷纷了局,还有复旦、清华等高校机构加速研讨,以及智谱AI、月之暗面等黑马出现。 这些海量AI大模子里,子木挑选了4款市道上反应比力好的、也是我常用的AI大模子停止评价对照,帮助你挑选合适自己的国产AI大模子。 本文评价的4个AI大模子文心一言4.0、通义千问、kimiAI、天工AI。 一、大说话模子的5个评价维度对于AI大模子的评价,今朝还没有威望、同一的评价维度,我按照文案创作的需求、利用习惯,建立了自己的AI大模子内容创作评价维度: 1. 说话质量与创意性这是用AI创作中最关注的部分,表现AI写出来的内容质量。 它包括: 文本流利度,用来评价AI天生的文案能否自然流利,语法正确,合适人类平常交换习惯,我会用主题文章、简历撰写这两个题目来停止测试评价; 本性化内容,用来评价AI能否可以按照我们输入的本性化要求,比如语气、气概等等来定制文案,满足分歧的创作需求,我会用分歧人物先容同一个事物的2个题目来停止测试评价。 2. 范畴顺应性用来评价AI模子能否具有特定行业或范畴的专业常识,能否天生相关性强、正确无误的文案内容,我比力关注的是新媒体、教育培训行业,所以我一般会用这两个行业的代表性题目来停止测试评价,这一块每个行业的题目纷歧样,大师可以按照自己的行业来设想题目。倘使有需要的话,也可以提问或联系我交换。 3. 逻辑性用来评价AI创作内容的逻辑性,我会用公务员考试常用的逻辑推理题,和故事的续写这两个题目来测试评价,逻辑推理题是看它的推理进程,成果能否正确,而故事的续写,看情节能否公道、人物的行为能否合适逻辑。 4. 时效性时效性决议了AI天生内容时能否能用到最新的案例或事务、我们在用AI寻觅资讯时能否能给到最新的信息。我会用最新的热门事务、1个月前、3个月前的3个分歧题目,来评价测试AI的时效性。 5. 本钱与易用性AI作为一个帮助工具,能否是方便利用、利用本钱若何,也是我们需要斟酌的点。 二、4款国产大模子对照1. 大模子简介
2. 文本流利度对照我把4个大模子写的“一花独放不是春”命题作文内容,给中学语文教员看了,满分60分,可以打到40分以上的水平,整体表示都还不错。 文心一言4.0的文笔流利度更高,文彩也更好。对于主题的整体了解加倍正确,没有什么逻辑题目,可以算得上是一篇文彩不错的作文。 通义千问的流利度也还不错,可是行文手法不如文心一言纯熟,比力中规中矩,相对文心一言4.0弱一些。 kimiAI的说话流利度跟通义千问类似,但对于主题的了解相对弱一些,文章的整体性相对最弱,有一些段落偏离了题目自己的意义。 天工AI的行文流利、纯熟,只是有一两个段落显得有些生吞活剥,前后意义纷歧致,成心机的是,天工AI表示出了比力强的政治素养,写出来的内容不像高考作文,而更像申论作文,做政务公文类的可以优先斟酌天工AI。 打分:
3. 本性化内容对照四个AI大模子都可以区分分歧的口气,同时,也可以区分分歧的身份脚色对于同一件工作所关注的分歧的方面。 从8岁女孩的角度来先容一辆新能源车,4个大模子城市把重点放在了车子是用电的、很奇异的描写上,也都用到了小孩子能了解的说话,用打例如的、形象化的描写来说这个车子。其中,kimi AI对于脚色年龄的把握比其他三个大模子稍微小一点。 而从男企业家的角度来先容新能源车,4个大模子都挑选了将新能源车界说为这个企业家自己的产物,从更宏观的角度起头先容这辆车,都表达了对于“未来出行”的创新和积极摸索,偏重从技术的角度来先容。 所以在本性化内容方面,4个大模子表示差不多,kimiAI要稍微小一些。 打分:
4. 逻辑性对照AI思考逻辑测试,内容是一道典范的公务员考试的行测题目。 4个AI都在很短的时候内给出正确答案,AI加入公务员考试,估量能秒杀99.9%的人。 在回答的内容中,文心一言给到的思绪最详实、看起来条理也相对最清楚,而天工AI给到的思绪最简单,没有描写太多的思考进程,我以为这是相对欠缺的。 AI续写逻辑测试,内容一个故事的续写。 我在故事里设想了3小我物,发现藏宝舆图的小明、他的好朋友小帅、妹妹小美,而故事也是围绕着寻宝的冒险之旅展开,这样,就能考查AI对于人物的设定,能否合适逻辑,以及故事线能否合适逻辑。 在这个测试中,文心一言的表示相对较好,发挥了较强的对于人物气概的把控才能,可以在故事中写人物对话,对话的气概也合适3小我物的性情设定,故事内容更长,相对更细致。 而通义千问则发挥了更多的缔造力,赋予了人物更多分歧的特点,不外内容更概括简短。 kimi的表示与通义千问类似,也是经过赋予人物分歧特点来塑造人物,对故事的描写加倍细节一些,内容也稍长一点。 天工AI的内容则加倍简短,没有把控分歧的人物气概、也没有赋予人物分歧的特点,表示相对是最弱的。 打分:
5. 时效性对照这是我很是很是垂青的方面,在内容的创作中,援用时下的热门资讯,对于自媒体运营而言,是一种重要的才能,所以我们会需要时效性强的AI。我用最新、一个月前、三个月前的三个题目来停止测试。 在这一轮测试中,表示最弱的,反而是已经的搜索巨头百度所开辟的文心一言。 对于2月29日前的最新热门“董宇辉为什么清空微博”这件工作的诠释上,通义千问、kimi、天工三个大模子都给出了正确答案,只要文心一言给出的答案不正确。 对于一个月前哈尔滨的热门、三个月前的双十一销售额,则4个大模子都给出了正确答案。 同时,文心一言、kimi AI都给出了答案所援用的参考材料,但文心一言给的参考材料,首要都来自百度系自己的内容,主如果都雅视频、百家号,但这里存在一个bug:大说话模子不能剖析视频内容,所以对于董宇辉为什么清空微博这件工作,文心一言虽然按照视频的题目,找到了都雅视频中的参考材料,可是由于不能剖析视频内容,找到参考材料也看不懂,就像找到一份天书,照旧只能按照自己的逻辑编造一个回答。 而一样给出了参考材料的kimi AI,对于董宇辉清空微博的事务,则援用了更新的、也更周全的资讯。它援用了比来1天的内容链接,援用来历包括腾讯网、知乎、彭湃媒体等,搜索来历比文心一言更广。 我在利用kimi AI搜索AI相关的内容时,它能给到的参考材料范围也很广、很精准,除了首要来历知乎之外,还会给到包括GitHub、群众数据、中国通讯院,和一些可以公域拜候的数据报告的链接,搜索才能和时效性是比力强的。 别的2个AI大模子,通义千问和天工AI虽然没有给到援用链接,但对3个题目标回答都是正确的。 所以在时效性上,kimiAI最强,它不但能比力大范围地搜索到相关资讯,而且能给出援用链接,让我们可以间接经过链接,去判定这个内容的有用性、能否正确,通义千问和天工AI相对较弱,由于不能给出援用链接,对我们判定起来相对更困难一点,最弱的是文心一言。 打分:
6. 本钱易用性对照今朝,4个AI大模子都能间接经过网页链接拜候到,kimiAI、文心一言、天工AI都能在微信小法式里利用,很是方便,通义千问虽然没有官方的小法式进口,可是利用网页端也是比力方便的。在本钱上,除了文心一言4.0需要49.9元的月费,或588.8元的年费,其他3款都是临时免费。 打分:
三、总结在现实利用中,我一般会挑选文心一言4.0加kimi AI的组合。 用kimiAI搜索材料、拓展内容,它是我今朝比力喜好用的搜索方式,在向kimiAI提问时,我会先看它给的回答,然后看它给的参考材料,其中有哪些材料是威望、官方的,比如数据报告等,在这些材料中找一找能否有新的信息。这样的搜索方式,比百度、小红书、微信搜索加倍精准快速。 文本创作时,我会偏向于用文心一言4.0,它天生的内容加倍流利、合适逻辑,内容质量相对更高。 专栏作家 李子木说运营,公众号:李子木说运营,大家都是产物司理专栏作家。自媒体及IP孵化顾问,前互联网大厂品牌项目负责人,努力于研讨企业及小我品牌影响力与获客。 本文原创公布于大家都是产物司理,未经答应,制止转载 题图来自 Unsplash,基于 CC0 协议 该文概念仅代表作者本人,大家都是产物司理平台仅供给信息存储空间办事。 |