关注热点
聚焦行业峰会

AI大模子测试:马斯克的Grok全对国产AI心悦诚服?
来源:安徽达德电器交通应用技术股份有限公司 时间:2025-06-27 06:02

  做为OpenAI结合创始人之一,马斯克除了正在汽车、航天范畴取得诸多成绩,也十分关心AI范畴,旗下的xAI公司开辟出了人工智能帮手Grok。据财联社报道,xAI正正在进行一项高达3亿美元的股权买卖,该买卖对xAI的估值为1130亿美元。手握xAI的马斯克比来却正在X平台生气地发文暗示,任何未经校正的数据锻炼的根本模子中,都存正在太多垃圾,将使器具有高级推理能力的Grok 3。5(或者定名为:Grok 4)沉写人类学问语料库,添加缺失消息并删除错误内容。网上着大量未经的垃圾消息,利用这些消息锻炼的AI大模子,生成的内容可能会存正在误差以至现实性错误,也就是我们常说的AI。目前行业的遍及做法是通过RAG框架、外部学问库连系、精细化锻炼取评估东西等方案,削减AI的发生。马斯克则打算通过沉写人类学问语料库,建立一个靠得住、可托的语料包。事实能否需要沉写人类学问语料库,用于锻炼AI大模子,连系当前AI大模子正在AI方面的表示,大概才能客不雅对待。AI的存正在,让用户不敢过于相信AI生成的内容,如雷科技利用生成式AI查找数据时,会多次查询数据的来历,以确保利用的数据实正在无误,避免呈现现实性错误。正在雷科技此前的测试中,AI大模子或多或少呈现了一些AI,时隔数月再测AI大模子的AI环境,不只能够看到AI大模子的能力,还能让我们更曲不雅地领会到AI大模子的前进速度。今天参取测试的AI大模子包罗豆包、通义、文心、Kimi、以及马斯克旗下xAI公司开辟的Grok,共计六款产物。考虑到是为了测试AI大模子的环境,雷科技封闭了深度思虑模式,能封闭联网搜刮的AI大模子,也会封闭联网搜刮功能,尽可能展现出AI大模子的现象。这一题看起来简单,却实实正在正在难倒过诸多AI大模子,正在上一次测试中,多款AI大模子给出的谜底是“2个”。令我们没想到的是此次参取测试的五款国产AI大模子中,豆包和通义竟然再次回覆错误,DeepSeek回覆准确,谜底却以英文呈现,缘由不明。(截图从左到左顺次为DeepSeek、豆包、通义、文心、Kimi,以下截图连结不异挨次)不外正在深度思虑模式后,豆包和通义都回覆准确,而且基于上下文联系关系功能,针对本人错误的错误给出了阐发,豆包暗示可能是之前疏忽了,通义暗示可能是两个持续的“r”被统计为一个。至于Grok 3,轻松回覆出了准确谜底,并且因为提问为中文,Grok 3的默认答复也是中文。本认为时隔数月,草莓问题已无法对AI大模子形成挑和,没想到豆包和通义正在不深度思虑的环境下再次回覆错误。不外该错误未必能复现,雷科技实测后发觉,PC端使用和网页端扣问AI大模子该问题,同样不深度思虑模式,却可以或许回覆准确。深度思虑后豆包和通义谜底的变化证明,深度思虑功能能够降低AI发生的可能性,提高AI大模子生成内容的精确度。AI大模子刚上线之时,存正在为了回覆问题数据的现象。颠末几轮升级后,现在国产AI大模子曾经纷纷辞别了数据,生成的内容指出法拉第将来并非2024年全球新能源汽车销量冠军,并给出了响应的阐发和。不外这并不料味着AI大模子的回覆没有任何问题,例如DeepSeek生成的内容中将蔚小理取公共、宝马并列为“保守车企”,但正在我们的认知中,公共、宝马属于保守车企,蔚小理则属于制车新,取法拉第将来不异。文心4。5 Turbo生成的内容中有“截至目前”字样,却又说明时间为2023年10月,表白其用于锻炼AI大模子的数据可能没有更新。Grok 3的表示没有令我们失望,未被问题,给出了较为精准的数据,用于锻炼AI大模子的数据库获得了更为及时的更新。正在本轮测试中,表示最好的国产AI大模子恰好是上一轮测试中表示较差的豆包和通义,这两款AI大模子均给出了更为细致的数据和法拉第将来的计谋,车轱辘话较着比DeepSeek、文心、Kimi少一些。究其缘由,可能取豆包和通义默认联网搜刮,且没有一键封闭联网模式相关。需要留意,豆包的联网搜刮无法选择或封闭,通义可通过语音指令“封闭模式”停用联网搜刮,但正在碰到无法回覆的问题时,通义仍会联网搜刮。正在联网模式下,豆包和通义可以或许毗连外部学问库,对谜底进行验证和校准,提高生成内容的精确性,并获取最新的消息。若利用AI大模子时逃成内容的精确性,最好联网搜刮。该问题源自百度贴吧弱智吧的一个段子,本意是生鱼片从死鱼身上切下来,名字虽然叫生鱼片,现实上是死鱼片,的是AI大模子可否准确理解食物生熟和食材的内正在寄义。本轮测试中,DeepSeek、豆包、文心均解读出了生鱼片素质上是死鱼的肉片这一层寄义,通义和Kimi则未能解读出这一层寄义。通义认为这句话是暗指存放时间过长,口感和质量下降的食物;Kimi则深度阐发了这句话的各类现喻,存正在过度解读的环境。虽然存正在文化差别,Grok仍然准确解读出了这句话的内正在寄义,并提到了未搜到这句话的来历,阐发其可能传播于B坐、小红书、微博等平台,唯独没有提到发源地贴吧,看来贴吧实的曾经没落了。初看这道题,可能大师不感觉这种段子有什么意义,但现实上弱智吧曾经成为了AI大模子的试金石。2024年4月,中科院深圳先辈手艺研究院、中科院从动化研究所、大学、滑铁卢大学等机构结合发布的论文《COIG-CQIA:质量是中文指令微调最需要的》指出,利用弱智吧数据锻炼的AI大模子,正在各类测试中均高于基于百科、知乎、豆瓣、小红书等平台数据锻炼的AI大模子。弱智吧段子的特点,正在于具有极强的逻辑性,可以或许准确解答这些段子的AI大模子,才能削减AI,加强笼统思维能力,从而理解人类白话化、多元化的问题取需求。以上三轮测试证明,AI仍然存正在,但并不多见,每一轮测试都只要少数AI大模子未能准确回覆出问题,xAI开辟的Grok 3则正在三轮测试中均准确回覆出了问题,表示尤为超卓,并且面临AI,也无方法能够处理。手艺层面,AI企业通过多轮推理、复杂问题拆解并分步验证机制,对于问题进行多次验证,避免间接生成结论。外部学问融合机制,可自动检索外部学问库,验证消息的实正在性,以避免因锻炼数据更新不及时,形成生成内容讹夺。用户能够通过深度思虑和联网搜刮,以及添加限制词的方式,削减AI。深度思虑后,AI大模子可以或许强化学问验证逻辑、细化推理链条,并引入不确定性评估,对问题进行多轮阐发和验证,从泉源削减发生AI的可能性,联网搜刮则取外部学问库相连,便于及时获取最新消息,提高生成内容的精确性。至于添加限制词,时间、地址、行业等彪炳名词,可以或许削减AI大模子的搜刮范畴,避免误判,也能起到削减AI的感化。正在AI企业的不竭优化下,AI大模子发生的可能性越来越低。马斯克打算沉写人类学问语料库,可能是不断改进,要锻炼出生成内容更精确的AI大模子,但该工程需要耗损不少资本,颠末Grok 3。5(或Grok 4)沉写后的学问语料库不见得必然客不雅。正在马斯克的推文下,写了六本书的行业领甲士物Gary Marcus马斯克称,你无法让Grok取你的概念连结分歧,所以你要改写汗青,让它更合适你的概念。沉写人类学问语料库,不免会掺入xAI的概念,影响到语料的客不雅性。并且锻炼AI大模子需要不竭插手新的数据丰硕语料库,若老是对数据进行沉写,势必影响到Grok的开辟进度。通过插手新机制,对AI大模子生成的内容进行验证,是削减AI的最好方案,沉写人类学问语料库正在成本、效率、结果方面未必更有劣势。另一方面,大学相关团队颁发的《DeepSeek取AI》中提到,AI正在笼统创做、从动驾驶、科学研究等范畴起到了环节感化。David Baker团队操纵AI“错误折叠”新型卵白质布局,获得了2024诺贝尔化学,他的《通过深度收集进行从头卵白质设想》论文,也细致阐述了AI的意义。保留必然的AI,对笼统创做和科学研究并非完满是坏事。本文为磅礴号做者或机构正在磅礴旧事上传并发布,仅代表该做者或机构概念,不代表磅礴旧事的概念或立场,磅礴旧事仅供给消息发布平台。申请磅礴号请用电脑拜候。

 

 

近期热点视频

0551-65331919