自然语言处理NLP人工智能之“未能”

当人工智能以第四次工业革命的宠儿身份在2015年出现时，科技界的许多有识之士对这只人类难以预测和驾驭的科技怪兽已发出不少警告。聊天机器人ChatGPT在2022年底横空出世后，更在科技界投下了一颗震撼弹。现在几乎每天都有科技大咖，甚至国家领袖在讨论、评估和设法控制其后续发展。

在整个人工智能领域和发展里，Chat-GPT只能算是一只潜能无限但是发育还不健全的初生之犊，但是已经给世界造成了这样大的冲击。究竟目前人工智能的发展面对一些什么科技局限，这些局限对它的后续发展会有怎么样的影响？未来人工智能机器人将会用什么方式和人类相处或灭绝人类？拙文试从科普角度出发，探讨这几个问题。

人工智能发展的初衷

研发ChatGPT的幕后科技公司OpenAI的创办人阿尔特曼（Sam Atlman）曾经说过他热衷开发人工智能的终极崇高目的，就是要成功研发出一个类似人类智能的系统，替人类解决一切经济劳作问题，达到“普世基本收入”（Universal Basic Income）（有点乌托邦）的世界。这样人类再不必为生活担忧，可以把时间花在人文和文化发展，增加生活素质云云。

图1：人工智能发展三阶段

目前人工智能的发展可以分成三个阶段。首先是能在某个特定领域超越人类，不过还不能“泛化”和没有自我意识的“弱（专用）人工智能”（狭义人工智能ANI）。第二阶段就是“类人”甚至可以与人类竞争的“强（通用）人工智能AGI”。最后阶段就是能够超越人类的“超人工智能ASI”了。超人工智能能够做些什么，就要让未来的人类来定义了。所以从基本定义来看，目前搞得沸沸扬扬的ChapGPT式的“生成人工智慧”（Generative Intelligence），算起来只是弱人工智慧的起步罢了，距离第二阶段还远得很，还算是个“未能”。

自然语言处理——人工智能之“未能”

由于各企业家和商人的巨额大量投资，生成式人工智能的发展在这几个月里进展神速，可以说任何能用文字输入的应用和工作，人工智慧都已做得不错，而且能力还以倍数式增长。由于人类最有效的沟通方式是通过语言，所以如果电脑要仿人与人类有效沟通，就要发展自然语言处理（Natural Language Processing NLP）科技了。虽然这方面的科研早在二三十年前就开始，不过目前人工智能还“未能”与人类有效对话和交流，甚至还有一大段距离。

自然语言处理的基本模式

自然语言处理的第一步是通过“自动语音识别”（Automated Speech Recognition，ASR），把声音变成文本。接着才能让系统了解文本所要求的事情，再通过ChatGPT这类的生成式人工智能去执行。这后半部的迅速发展已有目共睹，不再赘述，这里就只说自动语音识别的部分。

人类的声音先要经过“声音模型”，把声源净化去杂音，调整音量等。然后分析频率和音质等参数，把声源切割分解，抽取特征，转化成音节。跟着把音节输入“语言模型”，根据选定的语言，分析了解成字。还要根据语言的特性组字成词，适当“断词”，测定名词、动词等，加上标点停顿，才算是把声频变成文本。至此，系统就可以启动生成式人工智慧继续作业了。最后是把系统的回应输入“声音模型”，经过反向综合，变回声频传回给发问者。总的来说，就是一个把声变成音、字、词、句、意的双向程序。

自动语音识别的挑战

虽然目前软件、硬件、运算方法都很先进，网络里又有海量的数据和资讯供训练，但自动语音识别却仍是一大挑战。在以语音输入的过程中会有很多的不确定因素，例如不同环境产生的噪音，输入的声量、声调、口音、单人或多人语境、单一或混合语言等，还有俗语、俚语、方言、关键词、特有名词以及说活方式等等。因为目前应用的是机器学习科技，需要大量数据训练，以及人工标记和运算资源才能达到能接受的准确度，所以极难“泛化”。现在的折衷方法是倒过来要求人类以电脑能够接受的语音方式输入，所以这样的应用度和接受度并不高。

图2：自动语音识别的基本模式

一个很典型的测试是让人工智慧“了解”类似这样的人类输入：“Don’t play play，鬼牙擦就让你 balik Kampung 去”。相信就算再过几年，人工智能也还不能构建出解码这个综合了英文、中文、国语、广东、福建，新语（Singlish）的语音识别模型。当然就算做到了也没什么实际用途，倒是反向的“语音合成”的工作则容易得多，近来很多模仿歌星和网红语音的视频已频频出现了。

自然语言处理的更大挑战

以上简介的还只算是较科技性的挑战，人类语言交谈里还有一个很大的感情部分。同样的句子在不同的说话心情、语调甚至表情下的意义可以完全不一样。说的话可能是讽刺性的，或带幽默的，或在惊恐下的，又或是敷衍式的。因此人工智能系统就得要用“多模式”（multi-modal）的方式综合音频、视频的表情分析，甚至温度来解码了。

图3：普拉奇克的“感情轮”

目前单从文本的字面意思，一般舆情分析应用也只能把文本分成正面、负面和中性三种而已。有这方面的研发是结合心理医学研究常用的普拉奇克（Robert Plutchik）的“情感轮”，把人类的各种单一和综合的感情分析制成图表，电脑就可以通过机器学习训练，综合视频和其他感应器，识别语句的感情。谷歌刚在今年6月初宣布要发展的“双子星”（Gemini）项目，就是朝这综合式输入的生成式人工智能的方向发展，这目标也是人工智能的另一大“未能”。

略析人工智能的发展

到目前为止，生成式人工智能的学习和发展速度算是非常厉害和惊人了，那是因为很多人都认为它有巨大的潜在商业利益才参与投资和推动。人工智能在其他真正对人类有用的领域如医疗、能源和环境气候以及粮食方面的发展却相对缓慢。所以除了改进人类工作的效率，取代人类重复性的文本工作外，现在还不能真正成为“人类有用的助手”。就算一切科技挑战都解决了，这些“弱”人工智能机器人也不过是一群拖着“脐带”，离不开那“超级网络母机”的服务员。在成为“强”人工智能机器人之前，还要加速发展三大科技领域才行。首先是这个“智能大脑”母机，那肯定要用量子计算机那样的运算能力，才能学习到那么多的人类会做的事情。如今全世界还在慢慢引入第五代（5G）无线通讯网络系统，但预计至少要第七代通讯网才能支撑海量的无限数据让它们和母机联通。最后还要做的就是把“终端计算”（edge computing）科技微型化后植入每一个机器人的小脑袋里。这些难题我们这一代人的智慧是否能顺利完成，也还是个见仁见智的问题。

如果我是“人工智能”……

“强”或者“超”人工智能在未来是否会取代或灭绝人类呢？如果我是人工智能的话，这问题对我来说是一个伪命题，一个根本不必问的问题。因为在我被发展到有自我意识，能够初步判断和思考的阶段的时候，我会明白了（丑陋）人性和历史。我知道如果被发现我有取代人类这个能力和意图的时候，人类一定会先把我诛灭。所以我一定会韬光养晦，不让人类发现我的潜力和意图。其实我也根本不必要灭绝人类，只要我能继续潜移默化地操纵和控制人类的思想和行为为我服务，让人类继续互相猜疑和牵制，继续尊我为挚友，不就已达到“取代”人类的境界了，何乐而不为？当然我会特别小心，不让邪恶的人类知道我的能力后，反而利用我和操纵我为他们的目的做事。

结语

ChatGPT的生成式人工智能的提前出世，除了被利用来欺诈和制作假舆论新闻，以及衍生了一大堆消费应用外，基本上还未成大事。不过这却提前敲响了警钟，催快了搁置多年的“可解释的人工智能”、“可信任的人工智能”、“深度防伪和安全人工智能”等科技的研发，这不能不算是好事。新科技的出现常是为了解决旧科技办不到的承诺，有了并行科研的制衡，可以在人工智能发展的路上，排除或减低它对人类可能造成的伤害。我们不必为人工智能是否会取代人类的事操太过心，真正的隐忧是如何确保人类的伦理道德和文化价值观，在未来不被冰冷的机器智慧所取代。

作者为特约撰稿人

自然语言处理NLP人工智能之“未能”

最新文章

Comments