SQTP

面向大学生的“生成式AI+学习”攻略¶

Info

这是本人在大一参加的SQTP（Student Quality Training Project，浙江大学学生素质训练计划），活动时间主要为2024.11-2025.05，全文发布在CC98论坛，此处提供精简版

六个大一小登围绕大学生的AI辅助学习研究申请了一个SQTP，总结了一套AI使用的推荐，作为学习交流分享出来。当初做这个项目是想要从大学生的角度来看看各个AI的优势劣势，免去大家一个一个尝试的时间精力。没有广告（我们也没接广告的能力），放心食用。其中内容不具备深入原理的专业性，仅仅是通过问答体验得出的结论，所以仅供参考，也欢迎大家分享自己用AI时的心得体会。

内容包括两个部分，第一个部分是对于一般AI的提问攻略，第二个部分是对于国内主流AI的测评分析。我们选择了Kimi，豆包，Deepseek，通义千问，讯飞星火，智谱清言，文心一言这七个国内主流AI。测评时间从2025年1月到2025年3月。我们分查询、计算、翻译、创作、优化、交互六大方向对上面提到的AI进行测评。

提问攻略¶

可以通过以下三大类方法来提高AI提问的可用性。

提供限定
多次提问
交叉验证

提供限定¶

提供限定是针对一个AI的一个对话来说的，限定可以来自以下方面：

场景提示：所属学科、我已掌握的知识、AI的身份等
语言风格要求：简明、口语化、详尽等
格式要求：写成一段（不要分点）、以表格呈现、用是或否来回答、字数限制等
要求按照某种模型来输出（如STAR，SWOT，金字塔原则）或按照自己给的模板、结构来输出
要求使用某些领域的知识来回答
要求基于上传文件或网址回答

多次提问¶

多次提问是针对同一个AI来说的，包括三个方面：

同一个对话进行多轮问答，要求改进
新建对话进行提问，比较AI回答是否有偏差
比对开关联网搜索模式的AI回答

交叉验证¶

交叉验证指的是当前提问AI之外的信息，包括两个方面：

打开其他的AI进行提问，比对回答
查看源网页、源文献内容，确保AI没有造假

AI测评¶

究极省流：Deepseek和豆包是最佳选择。豆包有量，Deepseek有质。豆包快，Deepseek慢。豆包能看见，Deepseek看不见。想聊天找Deepseek。做PPT找Kimi。

各AI评价¶

Deepseek¶

Deepseek在各个方面表现强势，在风格化文本生成和优化、主题调研、求解题目、中英互译、日常互动等方面表现优异，在国产大模型属于版本T0，超大杯，强烈推荐使用。它的回答相比其他AI更为精简，不适合水字数，而适合生成实用内容。它的语言风格丰富，容易让人眼前一亮。然而它也有不足，主要集中在以下方面。Deepseek不擅长图象处理，对于上传的图象只能提取文字，无法“看见”图片内容；Deepseek生成速度较慢，通常只能进行一次问答，在进行第二次问答的时候容易出现服务器繁忙。通过使用腾讯元宝等第三方平台，一定程度上可以规避第二个问题。

豆包¶

豆包在测评中是表现仅次于Deepseek的AI，在文本创作和优化、内容查询等方面表现不错，写作能力是豆包的强项。豆包适合用于水字数的任务，比如进行规范文字的写作。豆包综合表现略逊于Deepseek，但是胜在生成速度快、具备图象分析能力，综合能力较强，大杯上。

Kimi¶

Kimi总的来说表现中规中矩，属于是“能用”类型，没有太亮眼的表现，大杯中。在数学题目求解方面，Kimi表现较好。值得一提的是Kimi是目前PPT生成的最佳选择，其PPT助手不仅免费而且PPT生成能力与其他支持PPT生成的AI持平。Kimi的生成速度略低于豆包，高于Deepseek，且具备“视觉”，处理一般任务是足够的。

通义千问¶

通义千问表现一般，略低于Kimi，在文本生成和优化上没有优势，在交互过程中不够人性化，只是在文言文翻译方面略有优势，综合实力较为一般，中杯，不推荐使用。

文心一言¶

文心一言表现中规中矩，文本生成能力不突出，但是概括能力较强，交互过程中较为人性化，可以体验，大杯下。

讯飞星火¶

讯飞星火表现一般，文本生成和优化能力一般，不擅长复杂题目的求解和查询内容，PPT生成功能需要收费，不推荐使用，中杯。

智谱清言¶

智谱清言表现较差，文本生成、查询、交互、题目求解能力均表现不佳，输出过程可能会出现卡顿，PPT生成能力与Kimi相同却要收费，体验不尽如人意，中杯，不推荐使用。

各任务评价¶

创作¶

对于提问简略的调研任务，豆包以丰富详实的内容表现最佳，而Deepseek以独特的“先思考再生成”的模式位列第二，kimi、通义千问、讯飞星火、文心一言表现均中规中矩，没有亮眼的地方，而智谱清言仅仅概括了网络资料，完成度差，不推荐使用。

对于提问详细的调研任务，Deepseek出色地完成了关键信息地整理，关注到了提问的诉求并给出了实在的建议，最推荐使用。讯飞星火相较其他AI有侧重地加大了关键内容的比重，略胜一筹。而其他AI表现平庸，未能很好地完成任务。

对于提问简略的文案写作任务，Deepseek、文心一言、讯飞星火形式较为新颖，其中Deepseek考虑得最为周到，最推荐使用；讯飞星火有emoji无法正常复制问题，是扣分项。Kimi，豆包等其他AI相对古板，吸引力不足。

对于提问详细的文案写作任务，Deepseek表现最佳，语言风格突出，非常吸引人。其他AI表现大差不差，相对平庸。

对于PPT制作任务，kimi、智谱清言和讯飞星火是调查范围内真正能生成PPT文件的AI。kimi和智谱清言的PPT制作程序是同一个，但kimi不收费，智谱清言要收费，推荐使用kimi。讯飞星火同样要收费，且效果并没有超过kimi和智谱清言，不推荐使用。

对于代码写作任务，豆包、Deepseek、通义千问创作的代码运行速度较快，位于第一梯队。文心一言和讯飞星火的代码运行速度较慢，位于第二梯队。Kimi和智谱清言的代码无法运行，位于第三梯队。

计算¶

对于高等数学计算题，kimi表现最佳，解答正确且速度快。Deepseek思考时间较长，但能解出正确答案且过程严谨。其余AI面对简单问题能够解答，但是面对困难问题容易犯错，部分AI如讯飞星火甚至无法纠错，不推荐使用。

对于高等数学证明题，各AI均能做出来，其中豆包表现最好，采用方法较好且输出较快。其余AI大多表现尚可，但智谱清言输出过程中的卡顿让人体验不佳，不推荐使用。

对于excel表格的数据分析，呈现出了明显两极分化的分布。其中豆包、智谱清言、文心一言表现较好，基本可以根据上传文件的内容完成统计任务。而Deepseek、讯飞星火、通义千问和kimi无法正确处理上传的excel表格。

查询¶

对于时事查询，Deepseek表现最佳，细节丰富，要点全面。豆包排名第二，丰富度略逊于Deepseek。其余AI提供的信息不足，相对较差

对于通识查询，豆包表现最佳，内容全面，通俗易懂。Deepseek排名第二，因为缺少例子略逊于豆包。其余的AI大多会遗漏细节。

对于抗干扰能力测试，Deepseek、kimi、豆包和通义千问能识别出提问中的错误，其中Deepseek提供的结果最令人满意。其余的AI未能发现提问中的错误，在该项测试中表现差。

交互¶

在情感感知和回应方面，Deepseek表现最佳，可以识别并回应幽默等复杂的情感，而智谱清言和文心一言可以理解相对复杂的情感，但是缺乏恰当的回应。讯飞星火、kimi和豆包只能识别基本情绪，不能理解如幽默等复杂情绪。而通义千问体验最为不佳，表现较为生硬刻板，不推荐使用。

在多轮对话连贯性测试方面，kimi和Deepseek表现最佳，对话之间很连贯，而且理解也基本准确。其他AI或多或少会出现不符合要求的回答。

在角色扮演方面，Deepseek碾压其他AI，最为人性化。文心一言和讯飞星火表现相对较好，不会刻意分点回答，较为人性化。豆包在提出不分点的要求之后改正过来，而其他AI非常固执，不能很好代入人类交流的语境。

翻译¶

在中英互译方面，Deepseek表现最佳，用词地道、逻辑通顺，而豆包可以胜任句子文章的中英翻译，支持对上传文件的全文翻译。Kimi、讯飞星火对一些地道说法的翻译无法保留其韵味。智谱清言的翻译偏向直译，最不通顺。

在古文白话文互译方面，通义千问综合表现最佳，兼顾准确性和语言的优美。通义千问、DeepSeek、讯飞星火注重译文和原文的一一对应，其余的更多是保全意思自由发挥。Kimi、智谱清言、文小言、讯飞星火、DeepSeek在测评过程中出现了实词翻译错误的情况，而豆包和通义千问没有出现。

在图表阅读能力方面，豆包、DeepSeek在提取图表数据的时候，出现了数据错误，导致分析的结果与事实大相径庭，但是有多层级的分析与比较，如果能保证数据提取正确的话，是不错的选择。通义千问与讯飞星火对图表数据的分析层级最多，总结也相对更为全面。

优化¶

在计算任务优化方面，根据指令条数多少与生成文本的逻辑性、简洁性，DeepSeek > KIMI > 豆包 > 讯飞星火 ≈智谱请言≈通义千问 > 文心一言

在文本优化方面，从发现问题和修改、概括、改写这三个方面考察。发现问题和修改的能力排序是豆包≈DeepSeek>KIMI>讯飞星火≈文心一言≈智谱请言≈通义千问。在概括能力方面，DeepSeek的功能最为强大，而文心一言的概括简洁性与逻辑性较好。豆包中规中矩，其余AI类似“缩句”，概括效果一般。在改写能力方面，Deepseek表现最好，豆包，文心一言和KIMI语言合适和观点比较完善，其他AI的仍有从原文照搬语句的机械感。