更新时间:2023-02-11 12:27:54作者:佚名
作者|维克多编辑|青暮
8月3日,首届全球数字经济会议在京举行。在人工智能产业整治峰会上,来自我国人工智能领域的顶级科学家,围绕主题“探索创新、共举担当”展开前沿对话。
其中,中科院教授、清华学院人工智能研究院名誉教授张钹做了《人工智能的整治与创新发展》的讲演。在讲演中,张钹介绍了实现下一代人工智能的两个范式,其中“所有的处理都在连续空间里进行”的范式一,优点是计算机处理便捷,缺点是当知识转为向量表示方式时,遗失了大量语义。
以“打通离散空间和连续空间”为特点的范式二,其优点在于能否从根本上实现第三代人工智能,但缺点在于无法进行模型表示和模型获取。
以下是讲演全文,AI科技评论做了不改变本意的整理(本文经张钹教授确认):
张钹:明天讲演的主题是《人工智能的整治与创新发展》,介绍第三代人工智能的必要性以及目前两种探求途径。
虽然,在信息产业发展与技术发展过程也出现过安全性的问题,但信息系统安全性的问题主要来自于小型软件设计上的漏洞或则缺陷,所以相对容易克服。假如发觉漏洞只要“补上”就能解问题。
人工智能技术发展到明天,也出现了一些全新的安全问题,但症结不在系统设计方面,而是来始于算法本身的不安全性。为此,解决人工智能的安全问题,必须从算法本身出发,彻底改变,能够让使用者放心。为此,人工智能的安全涉及的诱因愈发本质,也更无法克服,须要从两个方面入手。
一个方面是整治,整治有两个含意:一是避免人工智能技术被无意识地误用,由于人工智能算法的不安全性很难被预先发觉的或则觉察,所以在使用过程中会出现好多错误,假如我们在使用的过程中不注意到这个问题,还会形成无意识的错用,导致极其严重的后果。
第二类问题是有意识地滥用人工智能技术,即恶意对人工智能系统进行功击或则滥用,这必须通过法律和法规解决。
明天我主要讲算法的不安全性,即怎样通过技术的创新解决人工智能算法的不安全性问题。也就是我们提出来的,发展第三代人工智能的思路。算法的不安全性来始于第二代人工智能,其特点是数据驱动。图象处理、语音辨识、文本处理等任务在“深度学习”和“多样性的数据”的加持下,系统效率十分高。但本质问题是算法十分脆弱。
如上图所示,这是一个图象辨识的反例。一张雪山的图片,加上一点点“噪声”,人类一直觉得是一座雪山,但计算机却误觉得一条狗,且置信度为99.99%。从这个事例中,我们除了看出人类和计算机辨识机制的差异,也力证了算法的脆弱性。
缘由何在?在于暗箱算法本身。如上图所示,计算机并不晓得马在哪里,之所以能确切辨识,其采取的机制是:提取局部特点。换句话说,并不是提取马本身的语义特点,仅仅通过提取图片的底层特点进行区别。
上述两个反例都证明了一个观点:根本性的原理出现了问题。更浅显一些,这些处理方式的局限性表现在:对于图象,我们完全将其放在特点向量空间中,放在连续数据空间中进行处理和分类。为此,算法并不是从认知层面辨识物体,而是用分类的方式分辨物体。
基于上述缺点,我们提出第三代人工智能,构建可解释的鲁棒人工智能理论。人工智能发展至今,几起几伏,进展十分平缓,根本缘由是没有坚实的理论基础。这与信息科技的发展完全不同,因为其有完备的理论清华北大人工智能,所以发展十分迅速。我们必须构建人工智能的理论,这能够开发出可信、可靠、可信及可扩充的人工智能技术,进而带动进一步发展。
第三代人工智能的一个核心是知识驱动和数据驱动相结合,充分发挥知识、数据、算法和算力四要素的作用。四个要素,知识当先,其重要性小于数据。
在知识驱动的思想下,我们提出三空间混和模型,打通“第一代人工智能在离散符号空间里处理知识(语义、符号)”和“第二代人工智能在连续空间里处理数据”这两种方式的成见,期望才能在连续空间里处理知识、语义,因而赋于计算机“认知马”的能力。
怎样实现?有两种范式。范式一:所有的处理都在连续空间里进行。在连续向量空间中用数据驱动的方式不具有语义功能,缘由还是在于上面提及的“局部特点”。我再举一个反例,如上图所示,计算机辨识鸟,提取的特点来自“头部发白部份”,这些技巧十分容易遭到功击,仅在“头部”用一些手段,才能让系统处理效率大大减少。
要克服这个问题必须在模型中融入知识。目前我的团队,以及瑞莱智慧都在这个方向上努力。基本思路是将知识放进空间向量中进行处理。其中知识的表示方式,我们在想办法用机率或则向量的方式抒发下来,目的是想和原先的算法结合上去。
当前的一些相关进展是对抗训练,即用对抗样本训练系统,且还能告诉系统“虽然这个样本在个别局部特点上和鸟相同,但它并不是鸟,对抗样本不能辨识为真正的样本”。为此,对抗训练才能在某种程度上赋于算法知识。
对抗训练也有局限性,倘若换一种对抗样本,计算机似乎都会犯同样的错误。为了解决这个问题,复旦学院和瑞莱智慧合作,在贝叶斯深度学习上下工夫,尝试将先验知识、后验约束加起来,目前早已听到了特别好的疗效。
虽然,这也是现今全世界主要的工作思路,其优势在于能否发挥深度学习的威力。虽然,深度学习有各类物理工具的优势,在处理连续向量空间上很有“天赋”。但这些方式基本上只才能针对个别特定条件、特定功击,即使计算机很擅长,但治标不治本,还有很长的路要走。
范式一的困难性在于:当知识转为向量表示方式时,遗失了大量语义,算法的鲁棒性增强并不多,由于关键是找寻更有效的“嵌入”方法。
为此,范式二“打通两个空间”的思路有可能从根本上解决问题。计算机在完成图象辨识任务的时侯,并没有进行图象分割。换句话说,计算机并不晓得马在哪些地方,也不晓得何处有马。假如想要实现where和what,须要同时做马的辨识和马的分割,目前这方面的工作还没有同时进行,由于“认识”和“分割”这两项工作都很难。
相比之下,人类又是怎样辨识马的?通过无监督学习。我们小的时侯,尤其是一两岁曾经,特别重要的任务是“无监督学习”,构建周围常见物体的模型,所以我们两岁曾经有了狗和猫的模型,早已认识猫和狗,因而我们通过举一反三很容易构建上去马的模型,换句话讲我们所以还能辨识马,就是由于我们已经认识马,我们脑部上面有马的模型。
怎样在计算机上面构建模型?怎样通过无监督的方式进行学习、鉴定?我的博士生做的一个工作是:想办法通过学习,把所有马的模型构建在隐变量上面,之后通过取样实现马的辨识,实际上此模型是通过无监督学习或则预训练进行完善的。目前,用这个思路构建的模型,在完成分类、识别任务时侯,效率大幅度提高。
不得不承认,这条路一直十分繁重。还拿马举例,由于物体是非刚性的,马有各类变型,睡醒的马和跑上去的马在形状上大不相同。所以须要构建哪些样的模型,是须要阐述的问题。
综上,范式二的本质困难在于两个方面,一是模型的表示,是采用确定性还是机率性的方法?二是模型的获取,是通过无监督还是加强学习?
发展第三代人工智能是一项十分常年的任务,人工智能的安全和整治也是常年的任务,安全问题是由算法本身造成,彻底解决有很长的路要走。
解决人工智能安全性问题必须双手抓,一手抓整治清华北大人工智能,整治不是短期的任务,是常年的任务;一手抓创新发展,创新发展要克服人工智能算法本身的不安全性,也是一个常年的任务。
“共倡宣言”为下一代人工智能保驾护航
为了更好的推进人工智能技术创新和产业稳健发展,产生更完备规范的创新体系和产业生态,《人工智能产业担当宣言》也在本次峰会上即将对外发布。
宣言由上海智源人工智能研究院、瑞莱智慧联合发起,百度、华为、蚂蚁集团、寒武纪、爱笔科技、第四范式、出门问问等人工智能行业的核心骨干企业、学术研究机构共同参与。
上海瑞莱智慧科技有限公司CEO田天作为峰会主办方与宣言核心参与方率先表示,让人工智能更好地服务于人类,是行业共同的目标,当整个社会重新考量技术的价值,科技从业者更应感遭到科技整治的急迫性和使命感,应该积极主动举办自治工作,同时开放共享,共举科技担当,将科技力量构建成为人工智能创新整治体系中的核心支撑。
宣言包含五项呼吁,首先指出,人工智能系统的设计、研发、实施和推广应符合可持续发展理念,以推动社会安全和福祉为目标,以尊重人类尊严和权益为前提。其次在技术能力方面,提出要最大限度确保人工智能系统安全可信,提升鲁棒性及抗干扰性,要提高算法透明性和可解释性,同时保障各方权力和隐私,对用户数据提供充分的安全保障。
讲堂预约丨权威专家再谈2:AI是否会带来结构生物学的“大革命”?为了愈发深入、系统地讨论近日的系列成果,8月7日(本周末9:30),雷锋网将举行主题为《权威专家再谈:AI是否会带来结构生物学的“大革命》的线上圆桌峰会。本次主题峰会由图象估算与数字医学国际研讨会()承办,雷锋网、医健AI鹈鹕志协办。想要提问的读者可扫描下方海报二维码,步入专家社群,我们会将您的问题搜集、汇总后,反馈给参会嘉宾,并在讨论环节一一进行解答。
因为陌陌公众号试行正序推送,您可能不再能准时收到AI科技评论的推送。为了第一时间收到AI科技评论的报导,请将“AI科技评论”设为星标帐号,以及常点文末右下角的“在看”。