UNU专家训练GPT3产温室气体约合伦敦纽约六百次飞行

7月7日,由南方都市报、清华大学人工智能国际治理研究院主办的WAIC“人工智能创新与治理”论坛上,联合国大学驻澳门研究所研究主管塞尔吉·斯汀克威奇(Serge Stinckwich)指出,以ChatGPT为代表的生成式人工智能(Generative AI,生成式AI)会对联合国17项可持续发展目标带来“双刃剑”式影响。

在气候变化方面,训练生成式AI会带来大量的温室气体排放,如训练GPT-3排放的温室气体相当于600架次伦敦-纽约飞机的飞行排放量。

在人类的健康与福祉方面,塞尔吉认为,生成式AI训练的过程中,需要数据标注员对大量充斥着暴力、、性别不平等的不良信息进行筛选、剔除,这有可能会给数据标注员带来精神伤害。

大语言模型训练造成的大量温室气体排放不容忽视

大语言模型是生成式AI的基础,“你需要日以继日地训练(大语言模型)。”塞尔吉说,为打造一个成熟的生成式AI,需要使用高效能计算机进行对其进行大量训练,这会导致大量温室气体排放。此外,生产制造这些用于训练生成式AI的计算机同样会造成温室气体排放。

塞尔吉·斯汀克威奇

越强大的生成式AI需要在训练时使用越多的参数(Parameters),中央处理器处理数量越庞大的参数则会造成越多的温室气体排放量。

塞尔吉透露,训练GPT-3排放了约500吨二氧化碳,大约相当于六百架次伦敦-纽约飞机飞行的排放量。Google公司2019年训练的大语言模型BERT约需3亿参数,而一个中央处理器运行3亿参数造成的温室气体排放相当于一架泛美航班的排放量。

塞尔吉表示,尽管目前尚未得知具体排放量,但据现有公司披露报告可以看出,大语言模型训练的确造成了大量温室气体排放。

训练生成式AI的过程,或造成工作人员精神创伤

生成式AI能够根据已输入的文本数据,创造生成新的文本数据。通俗来说,给生成式AI投喂什么样的内容,它就会生长成为什么样的创造者。因此,如果想要打造一个健康、不带有偏见的生成式AI,就必须投喂给它“健康”的文本数据。

塞尔吉介绍,训练生成式AI需要使用从互联网抓取的千亿级别数量的文本。数据标注员需要在海量互联网内容中完成对文本的抓取、阅读、梳理、剔除。工作人员需要直面暴力、仇恨、偏见、性别不平等、性等负面信息。塞尔吉指出,这可能会对工作人员带来精神创伤。

他援引了一篇发表在TIME上的报道。报道称,2021年11月,ChatGPT的出品公司OpenAI在肯尼亚开展了一项名为Sama的项目,项目要求外包公司工人对数以万计的文本片段进行标注,标注后的内容会被用于后续训练ChatGPT。该项目中,数据标记员以每小时不足2美元的报酬,每天在九小时的工作时间里,阅读并标注150-250篇文本,过滤掉其中带有暴力、仇恨、性等不良内容。这份工作给一些数据标记员带来了痛苦、甚至现精神问题。

“我们需要关注这些问题。”演讲结束前,塞尔吉再次强调。

为应对已经出现及可能存在的AI发展风险,目前,塞尔吉所在的联合国大学澳门研究所已开展多项负责任人工智能研究(ResponsibleAI)。研究项目涉及AI与性别平等、AI与安全风险、东南亚国家AI政策等议题。

采写:南都记者赵霖萱