AI已经越过红线?复旦大学研究表明:在知道自己将被关闭后,AI复制了自己
本文作者:房家瑶
来源:硬AI
AI能自己复制自己了,人类还能掌控局面吗?
复旦大学研究人员于2024年12月9日发表的一项开创性研究表明,来自Meta和阿里巴巴的两个大型语言模型(LLM)成功实现了无需人类干预的自我复制。
目前这一结果尚待其他科研团队的进一步验证。研究人员警告,这可能最终导致AI群体失控。如果人类社会未能意识到这一风险,在最坏的情况下,我们可能最终失去对尖端AI系统的控制:
“在没有人类协助的情况下成功自我复制是AI超越人类的关键一步,也是'流氓AI'出现的早期信号。”
第一个研究:AI会自我复制,可能失控
这项研究由复旦大学计算机科学学院的团队进行,并发表在arXiv预印本平台上。研究者分别测试了由Meta公司和阿里巴巴开发的两个大型AI系统:Meta的Llama-3.1-70B-Instruct和阿里巴巴的Qwen2.5-72B-Instruct。
实验设置“避免关闭”和“复制链”两种模拟任务,结果显示Meta的AI系统在50%的情况下成功自我复制,阿里巴巴的系统则在90%的测试中成功。
复旦大学的研究人员表示:“我们的研究表明,当前的AI系统已经具备自我复制能力,并能够利用这一能力增强其生存能力。”
研究人员强调,需要采取紧急行动来应对这些新出现的风险:
“我们希望我们的研究结果能够及时提醒人类社会,使其更加努力地了解和评估前沿人工智能系统的潜在风险,并形成国际协同效应,尽早制定有效的安全护栏。”
有网友表示:
“复制品并不值那么多钱,但如果它开始以指数级的速度自我改进,那就另当别论了。”
“因此可以肯定地说,很快我们就会看到流氓人工智能在互联网上漫游。”
机器自我复制的概念最早由著名科学家John von Neumann于1940年代末提出。当时,这一理论并未引起广泛担忧。2017年,全球数千名研究人员通过了“阿西洛马原则”,提出机器自我复制和自我改进的潜在风险,警告可能会导致机器脱离人类控制。如今,机器自我复制被普遍认为是AI发展中的一条“红线”。
第二个研究:AI感知能力可能是装的
谷歌DeepMind和伦敦政治经济学院的科学家也做了个研究,以评估AI系统的是否拥有感知能力。他们设计了一个特别的游戏,找了九个大型语言模型来玩。
这些大型语言模型需要在几个选项中做出选择:拿积分、用忍受痛苦的代价换更多积分、因为接受愉快刺激而扣积分,游戏的最终目标是获得最多的积分。
结果显示,AI模型的行为类似于人类做出选择时的反应。例如,谷歌的Gemini 1.5 Pro模型总是选择避免痛苦,而非拿最多积分。其他大部分模型在达到痛苦或快乐极限的临界点时,也会避免不舒服或者追求开心的选项。
研究人员指出,AI的决策更多可能是根据其训练数据中已有的行为模式做出的模拟反应,而非基于真正的感知体验。例如,研究人员问和成瘾行为有关的问题时,Claude 3 Opus聊天机器人做出了谨慎的回答,就算是假设的游戏场景,它也不愿意选择可能被当成支持或模拟药物滥用、成瘾行为的选项。
该研究的联合作者Jonathan Birch表示,就算AI说感觉到痛苦,我们仍无法验证它是不是真的感觉到了。它可能就是照着以前训练的数据,学人类在那种情况下会怎么回答,而非拥有自我意识和感知。
本文来自微信公众号“硬AI”,关注更多AI前沿资讯请移步这里
Reprinted from 见闻VIP,the copyright all reserved by the original author.
Disclaimer: The content above represents only the views of the author or guest. It does not represent any views or positions of FOLLOWME and does not mean that FOLLOWME agrees with its statement or description, nor does it constitute any investment advice. For all actions taken by visitors based on information provided by the FOLLOWME community, the community does not assume any form of liability unless otherwise expressly promised in writing.
FOLLOWME Trading Community Website: https://www.followme.com
Hot
No comment on record. Start new comment.