我的位置: 首页 > 贵州 > 正文

聚焦2024中关村论坛年会|清华大学学者孙茂松:要对大模型的数据集进行安全评测

1713493885562.jpg


  4月26日,在2024中关村论坛年会“数据安全治理与发展论坛”上,欧洲科学院院士、清华大学人工智能研究院常务副院长孙茂松以《人工智能大模型安全治理》为题发表主旨演讲。


  孙茂松说,人工智能特别是生成式人工智能,是发展新质生产力的一个重要引擎,但同时也存在一些不安全的因素,比如幻觉现象,在使用过程中会发生这样或那样的问题等。因此,治理是必须的。对生成式人工智能进行治理,全球已经形成了共识,总的原则是差不多的,但存在技术挑战。比如说生成式人工智能可以大量地产生数据。


663A2882.JPG


  孙茂松表示,他以前有个研究是做机器翻译,这项工作一个很重要的依据就是从互联网上抓取大量人工翻译的双语段,但后来发现机器翻译也会产生大量的双语段,但其实质量是不行的,拿它来训练机器翻译系统反而把系统训练坏了,这个时候必须靠技术去甄别互联网上哪些双语段是人翻译的,哪些是机器翻译的。


  “生成式人工智能的生成能力非常强,以它的算力,如果不进行治理,很快在互联网上的内容会超越人类写的内容。但是它写的很多内容有很多与事实不符,我们的大模型如果用它再来训练这就麻烦了。”孙茂松说,这些深层次的挑战需要各国政府和学者共同努力,从技术上把这个事做好。


  孙茂松认为,要对生成式人工智能的数据集进行安全评测,将来所有要上线的大模型都要先对它的数据集进行评测。当然,这个不权威不行,要能反映所有的正能量。同时,数据集的评测也要把负面清单说清楚,在不碰负面清单的前提下尽可能采取宽松包容的态度。


  孙茂松也表示,生成式人工智能并不是只会给治理带来问题,它的出现其实对安全治理提供了一种新的更有效的手段。比如现在数据里面有很多隐私问题,可以用生成式人工智能生成符合真实情况的数据,但同时规避掉隐私。这个就显示出它的威力,没有生成式人工智能,还做不到这一条。


  “同时,我们管理面临的环境是非常复杂的,有些情况可能在互联网上还没有出现,你没有那种数据,但你可能预测到这种情况或许会发生,这时候给大模型增加某些条件,它就会把那种你可能还没碰到的情景的一些数据生成出来,这样管理者就可以预先作出研判。”孙茂松说。


贵州日报天眼新闻记者 袁航

编辑 罗秋红

二审 石云华

三审 岳振