AI大模子测试：马斯克的Grok全对国产AI心悦诚服？-惠州达德电器有限公司

AI大模子测试：马斯克的Grok全对国产AI心悦诚服？

来源：安徽达德电器交通应用技术股份有限公司时间：2025-06-27 06:02

　　做为OpenAI结合创始人之一，马斯克除了正在汽车、航天范畴取得诸多成绩，也十分关心AI范畴，旗下的xAI公司开辟出了人工智能帮手Grok。据财联社报道，xAI正正在进行一项高达3亿美元的股权买卖，该买卖对xAI的估值为1130亿美元。手握xAI的马斯克比来却正在X平台生气地发文暗示，任何未经校正的数据锻炼的根本模子中，都存正在太多垃圾，将使器具有高级推理能力的Grok 3。5（或者定名为：Grok 4）沉写人类学问语料库，添加缺失消息并删除错误内容。网上着大量未经的垃圾消息，利用这些消息锻炼的AI大模子，生成的内容可能会存正在误差以至现实性错误，也就是我们常说的AI。目前行业的遍及做法是通过RAG框架、外部学问库连系、精细化锻炼取评估东西等方案，削减AI的发生。马斯克则打算通过沉写人类学问语料库，建立一个靠得住、可托的语料包。事实能否需要沉写人类学问语料库，用于锻炼AI大模子，连系当前AI大模子正在AI方面的表示，大概才能客不雅对待。AI的存正在，让用户不敢过于相信AI生成的内容，如雷科技利用生成式AI查找数据时，会多次查询数据的来历，以确保利用的数据实正在无误，避免呈现现实性错误。正在雷科技此前的测试中，AI大模子或多或少呈现了一些AI，时隔数月再测AI大模子的AI环境，不只能够看到AI大模子的能力，还能让我们更曲不雅地领会到AI大模子的前进速度。今天参取测试的AI大模子包罗豆包、通义、文心、Kimi、以及马斯克旗下xAI公司开辟的Grok，共计六款产物。考虑到是为了测试AI大模子的环境，雷科技封闭了深度思虑模式，能封闭联网搜刮的AI大模子，也会封闭联网搜刮功能，尽可能展现出AI大模子的现象。这一题看起来简单，却实实正在正在难倒过诸多AI大模子，正在上一次测试中，多款AI大模子给出的谜底是“2个”。令我们没想到的是此次参取测试的五款国产AI大模子中，豆包和通义竟然再次回覆错误，DeepSeek回覆准确，谜底却以英文呈现，缘由不明。（截图从左到左顺次为DeepSeek、豆包、通义、文心、Kimi，以下截图连结不异挨次）不外正在深度思虑模式后，豆包和通义都回覆准确，而且基于上下文联系关系功能，针对本人错误的错误给出了阐发，豆包暗示可能是之前疏忽了，通义暗示可能是两个持续的“r”被统计为一个。至于Grok 3，轻松回覆出了准确谜底，并且因为提问为中文，Grok 3的默认答复也是中文。本认为时隔数月，草莓问题已无法对AI大模子形成挑和，没想到豆包和通义正在不深度思虑的环境下再次回覆错误。不外该错误未必能复现，雷科技实测后发觉，PC端使用和网页端扣问AI大模子该问题，同样不深度思虑模式，却可以或许回覆准确。深度思虑后豆包和通义谜底的变化证明，深度思虑功能能够降低AI发生的可能性，提高AI大模子生成内容的精确度。AI大模子刚上线之时，存正在为了回覆问题数据的现象。颠末几轮升级后，现在国产AI大模子曾经纷纷辞别了数据，生成的内容指出法拉第将来并非2024年全球新能源汽车销量冠军，并给出了响应的阐发和。不外这并不料味着AI大模子的回覆没有任何问题，例如DeepSeek生成的内容中将蔚小理取公共、宝马并列为“保守车企”，但正在我们的认知中，公共、宝马属于保守车企，蔚小理则属于制车新，取法拉第将来不异。文心4。5 Turbo生成的内容中有“截至目前”字样，却又说明时间为2023年10月，表白其用于锻炼AI大模子的数据可能没有更新。Grok 3的表示没有令我们失望，未被问题，给出了较为精准的数据，用于锻炼AI大模子的数据库获得了更为及时的更新。正在本轮测试中，表示最好的国产AI大模子恰好是上一轮测试中表示较差的豆包和通义，这两款AI大模子均给出了更为细致的数据和法拉第将来的计谋，车轱辘话较着比DeepSeek、文心、Kimi少一些。究其缘由，可能取豆包和通义默认联网搜刮，且没有一键封闭联网模式相关。需要留意，豆包的联网搜刮无法选择或封闭，通义可通过语音指令“封闭模式”停用联网搜刮，但正在碰到无法回覆的问题时，通义仍会联网搜刮。正在联网模式下，豆包和通义可以或许毗连外部学问库，对谜底进行验证和校准，提高生成内容的精确性，并获取最新的消息。若利用AI大模子时逃成内容的精确性，最好联网搜刮。该问题源自百度贴吧弱智吧的一个段子，本意是生鱼片从死鱼身上切下来，名字虽然叫生鱼片，现实上是死鱼片，的是AI大模子可否准确理解食物生熟和食材的内正在寄义。本轮测试中，DeepSeek、豆包、文心均解读出了生鱼片素质上是死鱼的肉片这一层寄义，通义和Kimi则未能解读出这一层寄义。通义认为这句话是暗指存放时间过长，口感和质量下降的食物；Kimi则深度阐发了这句话的各类现喻，存正在过度解读的环境。虽然存正在文化差别，Grok仍然准确解读出了这句话的内正在寄义，并提到了未搜到这句话的来历，阐发其可能传播于B坐、小红书、微博等平台，唯独没有提到发源地贴吧，看来贴吧实的曾经没落了。初看这道题，可能大师不感觉这种段子有什么意义，但现实上弱智吧曾经成为了AI大模子的试金石。2024年4月，中科院深圳先辈手艺研究院、中科院从动化研究所、大学、滑铁卢大学等机构结合发布的论文《COIG-CQIA：质量是中文指令微调最需要的》指出，利用弱智吧数据锻炼的AI大模子，正在各类测试中均高于基于百科、知乎、豆瓣、小红书等平台数据锻炼的AI大模子。弱智吧段子的特点，正在于具有极强的逻辑性，可以或许准确解答这些段子的AI大模子，才能削减AI，加强笼统思维能力，从而理解人类白话化、多元化的问题取需求。以上三轮测试证明，AI仍然存正在，但并不多见，每一轮测试都只要少数AI大模子未能准确回覆出问题，xAI开辟的Grok 3则正在三轮测试中均准确回覆出了问题，表示尤为超卓，并且面临AI，也无方法能够处理。手艺层面，AI企业通过多轮推理、复杂问题拆解并分步验证机制，对于问题进行多次验证，避免间接生成结论。外部学问融合机制，可自动检索外部学问库，验证消息的实正在性，以避免因锻炼数据更新不及时，形成生成内容讹夺。用户能够通过深度思虑和联网搜刮，以及添加限制词的方式，削减AI。深度思虑后，AI大模子可以或许强化学问验证逻辑、细化推理链条，并引入不确定性评估，对问题进行多轮阐发和验证，从泉源削减发生AI的可能性，联网搜刮则取外部学问库相连，便于及时获取最新消息，提高生成内容的精确性。至于添加限制词，时间、地址、行业等彪炳名词，可以或许削减AI大模子的搜刮范畴，避免误判，也能起到削减AI的感化。正在AI企业的不竭优化下，AI大模子发生的可能性越来越低。马斯克打算沉写人类学问语料库，可能是不断改进，要锻炼出生成内容更精确的AI大模子，但该工程需要耗损不少资本，颠末Grok 3。5（或Grok 4）沉写后的学问语料库不见得必然客不雅。正在马斯克的推文下，写了六本书的行业领甲士物Gary Marcus马斯克称，你无法让Grok取你的概念连结分歧，所以你要改写汗青，让它更合适你的概念。沉写人类学问语料库，不免会掺入xAI的概念，影响到语料的客不雅性。并且锻炼AI大模子需要不竭插手新的数据丰硕语料库，若老是对数据进行沉写，势必影响到Grok的开辟进度。通过插手新机制，对AI大模子生成的内容进行验证，是削减AI的最好方案，沉写人类学问语料库正在成本、效率、结果方面未必更有劣势。另一方面，大学相关团队颁发的《DeepSeek取AI》中提到，AI正在笼统创做、从动驾驶、科学研究等范畴起到了环节感化。David Baker团队操纵AI“错误折叠”新型卵白质布局，获得了2024诺贝尔化学，他的《通过深度收集进行从头卵白质设想》论文，也细致阐述了AI的意义。保留必然的AI，对笼统创做和科学研究并非完满是坏事。本文为磅礴号做者或机构正在磅礴旧事上传并发布，仅代表该做者或机构概念，不代表磅礴旧事的概念或立场，磅礴旧事仅供给消息发布平台。申请磅礴号请用电脑拜候。

关注热点聚焦行业峰会

关注热点
聚焦行业峰会