CaptainZ·2 years ago

不管是现在爆火的文生视频大模型SORA，还是一年前横空出世的ChatGPT3.5，都给大家带来了极度的震撼。我在使用ChatGPT的过程中，对它的心智水平感到非常好奇，产生了一个疑问：到底ChatGPT有自我意识吗？如果想让一个AI有自我意识，那到底应该怎么做呢？张江老师的文章对我启发很大，本文是我在这个话题上的学习总结。

对于AI是否会有自我意识的思考，最早来自于2022年google的一名工程师Blake Lemoine被解雇的新闻（当时ChatGPT3.5还未出现），在这个新闻中这名高级软件工程师曾表示，谷歌的人工智能聊天机器人 LaMDA 拥有自我意识，并给出了和LaMDA聊天的记录来证明。当然了，现在来看的话，大概接近ChatGPT3.5的水平，大家已经见怪不怪了。

什么是意识

我们当然要先弄清楚意识（consciousness）的涵义。在一般的语境中，我们可以把它理解为一个生物体对自身和环境的主观感知和体验。在神经科学中，意识通常被分为两个主要的组成部分：

唤醒状态（wakefulness）：这是指生物体的警觉度或对外界刺激的反应能力。比如，当你醒着并且清醒的时候，你就处于唤醒状态。
意识内容（awareness）：这是指生物体对特定思想、感觉、感知和记忆的主观体验。例如，当你看到一只猫并且知道你正在看一只猫，那就是你对你的视觉感知有意识。

这仍然不涵盖所有关于意识的概念。例如，一些哲学观点，如泛精神论，认为所有物质都有一定程度的意识，即使这种意识可能非常微弱或者不同于人类和其他高级动物的意识。"意识"是一个复杂的主题，涉及到许多不同的学科，包括神经科学、心理学、哲学、认知科学、生物学、物理学甚至是人工智能研究。不同的学科可能会有不同的定义和理论，但共同的目标都是理解我们是如何体验和理解自己和周围世界的。

在研究意识最多的神经科学中，意识被认为有三重定义（参见论文 What is consciousness, and could machines have it?），分别是：

C0，无意识加工和意识状态。即，什么工作在什么条件下，必须有意识参与？作者做了很多实验，来验证无意识加工的存在。这个领域的研究相对成熟。
C1，总体可用性。即信息整合、同一性。这一方面的内容与“整合信息论”的理论相关，主要研究了信息整合是如何发生的，以及如何定量衡量。
C2，自我监控——即自我意识的核心。

下面将分别从这三个层面来讨论AI的意识与自我意识。

首先我们可以用一个例子来说明什么是C0级别的意识，即“无意识加工”到底是什么。

Snip20240222_44

比如棋盘上的A, B两个字母，实际上都是同样灰度亮度的，可是我们人第一反应总是以为A, B不同色——这是因为我们的大脑在没有意识的情况下，已经做了一些逻辑处理的加工——认为B在阴影里，所以B的颜色更深。后来的各种各样的实验发现，我们大脑参与的无意识加工，有非常非常多。比如简单的逻辑计算、甚至决策判断（如果背过乘法口诀表的话，华人在进行相应计算时会用无意识加工来处理，所以显得计算特别快）。

意识理论与模型

如果想了解C1级别的意识，就需要对意识进行建模，目前主流模型有两种，分别是GNW（Global Neuronal Workspace）和IIT（Integrated Information Theory）模型。

全局神经工作空间（Global Neuronal Workspace），是美国心理学家Bernard J. Baars和神经科学家Stanislas Dehaene与Jean-Pierre Changeux 提出的意识模型。这是关于意识的主导科学理论之一。它认为意识源于大脑的某些架构特性。该理论涉及到大脑中一个"工作区"的概念，新信息在这里与旧信息竞争并取代它。当一个或多个区域的活动超过某个阈值时，它会触发一种神经激动的波动，这种波动在整个神经工作区中传播，使信号可用于一系列的辅助过程。全球广播这些信息的行为就是使其变得有意识的。

这种工作方式有点类似于小程序。这些小程序平时不需要意识参与，自动就能完成一系列的工作。而意识是什么呢？GNW认为，意识就好像一个舞台，在特殊的场合/刺激下，意识会让这些小程序加载到全局的意识系统里去，进入到舞台的中央。

这样的话，在这个空间里，就可以做很多复杂的信息处理，如逻辑推理、决策规划等。这些是需要全脑参与的。不仅如此，意识还能反过来给这些小程序去发放信号，同时发给小程序，这样能让人快速产生行动。

image (17)

现在科学家们已经找到了很多证据，证明在大脑里，有很多跨脑区的长程连接，这些连接都可以认为是某种全局激活的物理基础。2017年，《Neuroscience》上有一个报道，科学家们发现了“巨大神经细胞”（Giant Neuron）。如上图，一个颜色是一个神经元，有很多突触，这些突触很长，基本达到了“脑”的尺度。这也成为了“全局工作空间理论”的一个物理证据。

第二个模型被称为整合信息理论（Integrated Information Theory）。根据整合信息理论（IIT），一个系统（如网络或大脑）的意识程度可以通过度量其组成部分之间的互连性和集成性来判断。这种理论强调了以下两个关键概念：

整合：IIT理论认为意识是由众多不同的元素（比如神经元）组成的，这些元素虽然各自独立，但是它们的信息和功能需要被整合成一个不可分割的整体，才能形成意识体验。这种整合性是意识存在的一个基本特性，比如我们在某一时刻的意识体验是一个整体，不可能只包含某个部分的信息（如颜色或形状），而忽略其他部分。
因果力：IIT理论中的另一个重要概念是"因果力"（Causal Power）。它指的是系统的当前状态对其未来状态的影响，以及它的过去状态对其当前状态的影响。具有高度因果力的系统可以在其各组成部分之间产生复杂的相互作用，这是形成意识的关键。比如，神经元之间的交互作用就形成了我们的思想和感觉。

这两个概念共同构成了IIT理论的核心，即只有当一个系统在其组成部分之间表现出高度的整合和因果力时，它才可能具有意识。这个理论甚至可以定量地、定义“意识度” φ。

我们可以用一个具体事例来说明IIT理论。假设用自己的手拍打自己的身体，当我们做这个动作的时候，仍旧可以从两个层次观察：在微观层面，这个动作无疑会造成手臂、身体上大量细胞死亡；而从“我”这个整体的人层面看，这些细胞无疑是被“我”制约的。吊诡的是，“我”是由大量的细胞构成的一个系统，假使按常规的因果论（还原论），“我”这个人体的特性是由细胞所决定的，正如“我”会害怕火，是因为细胞害怕火，细胞一被火烧，就会死亡。可是，人们却可以为自己的理想信念做出牺牲，甚至不惜让自己的细胞乃至于全部都被火烧死。显然，这超越了常规的从微观到宏观的因果论，而是从宏观到微观的因果倒置。“我”存在自由意志，所以可以拍打自己。这些都是因为有一个更高层级的整体，这个整体可以作为一个独立的主体发出“因果之力”，使得因果箭头从整体指向个体：我希望拍打手臂，所以产生了动作，细胞也随动作而死亡。而整合信息论中最重要的第二个观点就是在强调这种“因果力”，causal power。

试图解释意识之谜的模型当然不止上面两个，2022年《NATURE》发表了一篇意识理论综述总结了目前学术界几乎所有的模型。详细情况见下表：

image (18)

意识图灵机

上面的讨论对意识进行建模的目的是为了能在软件层面复现意识，我们知道，目前已有的计算机都是图灵机，有一对图灵奖获得者夫妇（Lenore Bluma和Manuel Blum），在PNAS上发了一篇“论文笔记”，提出了一个“意识图灵机”模型：一个可计算的意识架构。

image (19)

可以认为，意识图灵机就是把“全局工作空间理论”的架构给铺垫出来了，一堆小程序在底下可以做各种分布式任务，然后有一个全局空间。重点是，意识图灵机实现了一些信息上行和下行的机制。

image (20)

如上图所示，这个意识图灵机（Conscious Turing Machine, 简称 TM）模型通过图形化的方式，展现了一个企图模拟人类意识流程的复合体系结构。在这个模型中，意识处理被设想为一个多层次、高度互动的信息处理系统，这个系统涉及从基本感官输入到复杂决策输出的多个步骤。

外部输入首先通过感官被捕获，这些感官信息以只读的形式进入系统，反映了现实世界的刺激如视觉图像、声音、触觉等。这些原始数据一旦被接收，就转入到短期记忆模块，这里是意识处理的核心。短期记忆在这里起到了一个关键的过滤和整合的角色，它不仅限制了能够同时处理的信息量（反映了人类的注意力限制），而且通过将信息整合成块（chunks）来提高处理效率。这些块代表了通过意识处理和认知重组形成的信息单元，它们可以被视为意识活动的基本"货币"。

与此同时，长期记忆充当了一个庞大的后台数据库，存储着个人的经验、知识和技能。这部分记忆通常处于无意识状态，但可以通过内部机制，如UP-Tree竞争，将信息提升到意识层面。这种竞争机制反映了我们的注意力如何从一个主题转移到另一个主题，以及如何从庞大的知识库中提取相关信息以应对当前的情境需求。

在短期记忆中，被选中的信息块通过快速广播系统发送到各种专用处理器。这些处理器各司其职，处理特定类型的信息或执行特定的任务。例如，有的处理器专注于视觉空间信息的解析，有的负责内部言语和语言处理，而其他的则可能连接到外部数据库和算法，如Google搜索或AlphaGo。这种分布式的处理机制模拟了大脑如何并行处理各种信息，并允许意识同时考虑多个方面和可能性。

当信息在这些处理器中被进一步分析和整合后，最终的输出通过外部输出模块实现，这可以是言语、书写或其他形式的身体行为。这一步骤完成了从感知到行动的整个循环，反映了意识如何驱动我们与环境的互动，并根据外界的反馈和内在的目标制定响应。

在整个模型中，信息流和处理过程的设计旨在反映人类意识的灵活性、动态性和创造力。它展现了如何从简单的感官输入到复杂的思维和行为输出，通过不同层级的加工和整合，实现对环境的适应和影响。意识图灵机的这种模拟，虽然抽象，试图提供一个框架，以理解和复现人类意识的复杂性和多样性。

增加意识的规划和想象能力

为了探索意识的规划和想象能力，LSTM (长短时记忆网络)之父，在2012年的时候，提出了一种叫做 World Models（世界模型）的强化学习框架。他认为强化学习主体，应该内嵌一个虚拟世界，即 world model。在研究中，他用大量的实验证明了，内嵌了虚拟世界的模型能在相对小样本的数据上更加充分地学习——因为 Agent 可以 dreaming。

World Models（世界模型）的强化学习框架是一种在强化学习领域内的先进方法，它旨在通过模拟环境来提高agent（例如机器人或软件代理）的学习效率和适应性。这种方法源自于人类和动物如何通过内部模型来预测和解释周围世界的方式，它试图在人工智能系统中复制这种机制。

World Models框架的主要组成：

视觉模块（V）：这个部分的任务是从原始输入（如像素）中提取有用的特征和表征。在人类中，这相当于通过视觉感知环境并理解周围的物体和场景。在机器学习中，这通常通过卷积神经网络（CNNs）或其他图像处理技术来实现。
记忆模块（M）：这个部分处理时间序列数据，帮助agent理解环境中的时间依赖性和动态变化。这相当于人类的工作记忆，用于存储和处理近期发生的事件信息。在计算机模型中，这可以通过循环神经网络（RNNs）或长短时记忆网络（LSTMs）来实现。
控制器（C）：这部分基于视觉模块和记忆模块的输出做出决策，并执行动作。在人类中，这类似于决定如何基于当前理解的环境和目标来行动。在强化学习中，这通常是通过一个策略网络来实现，该网络决定在给定状态下采取哪个动作以最大化未来的奖励。

Snip20240223_45

具体来看，世界模型就是一个 RNN，它的输入主要包括了两组元素，一组是被编码的世界状态，另一个是自身在 t-1 的行动，这个RNN的目的就是预测下一步的 state/reward/action。有了这样一个世界模型，强化学习 Agent 在学习的时候就能带来很多收益。一方面在训练的时候，我们可以刻意地去训练这个世界模型（监督学习机制）。另一方面，它可以 dreaming——而这就是为什么世界模型能在相对小样本的数据上更加充分地学习的原因。

dreaming 的过程是，把不太完备的世界模型，单独拿出来做训练，通过一些假想的 action，即可以自己生成虚拟的 action。同时，从某个 t 时刻开始，让 world model 这个真实世界的模拟器，来生成下一个时刻的 action/state和reward，再拿这些 dreaming 的数据训练强化学习主体的执行部分。这样就可以在 dreaming 过程中优化目标函数，让 reward 达到最大。这样就大大增加了训练样本，减少了训练时间。同时，这里的 CMA-ES 是一个规划算法。从而可以用规划算法优化目标。即，有了世界模型就有了一个模拟器，Agent就可以设定一个未来目标，在模拟的World Model中找到实现这个目标的规划路径，从而产生一步步的action。

也许有的朋友对RNN不太了解。循环神经网络（Recurrent Neural Network, RNN）是一种特殊的神经网络，设计用来处理序列数据和时间依赖性问题。与传统的前馈神经网络不同，RNN具有处理前后信息关联的能力，这使它们特别适合处理语言、时间序列和其他连续数据。RNN的核心在于它的循环结构，允许信息在网络的不同时间步之间流动。这种结构使得在处理新的输入时，RNN能够保留并利用之前时间步的信息，从而捕捉到数据中的时间关系和依赖性。在实际应用中，这意味着RNN可以记住过去的信息并基于这些信息来做出更加准确的预测或决策。

尽管RNN在处理序列数据方面非常强大，但它们也面临着梯度消失或梯度爆炸的问题，这会影响网络学习长期依赖的能力。为了克服这些问题，研究人员开发了更高级的RNN变体，如长短期记忆网络（Long Short-Term Memory, LSTM）和门控循环单元（Gated Recurrent Unit, GRU）。这些改进的模型引入了门控机制，帮助网络更有效地学习和保持长期的信息，从而在处理复杂序列任务时表现更加出色。

然而，世界模型的系列工作虽然很好，但很重要的遗憾是——世界模型里依然没有自我（self）。虽然它可以把 action 重新喂给自己，但这只是一个行动，并不完全是“反思”——当我们在“意识”领域提及“反思”的时候，更多的时候，反思指的是一种心理状态。对比人类自身，我们人类建模的 world model 里是包括了 self 的，而现有的 world model 研究并不包含自身。另一个遗憾是，世界模型系列的 dreaming 做梦的过程，是非自主的。agent 会刻意地把“打游戏”和做梦之间做了区分，但人类是任意时刻都可以切换甚至同时做这两点。

自我意识与自指意识

"Self-reference"，中文通常翻译为"自指"或"自我引用"，是指一种情况，其中一个语句、表达、想法或其他类型的信息直接或间接引用或涉及到自身。自我引用是数学、逻辑、哲学、艺术和其他领域中常见的概念。

例如，在语言学中，自我引用的例子可能包括这样的陈述：“这个句子是假的。” 这句话在引用自己的同时也产生了一个悖论，因为如果这句话是真的，那么它就是假的，但如果它是假的，那么它就是真的。在计算机科学中，自我引用的例子可能包括一个计算机程序在其代码中引用或修改自己的部分，或者一个数据结构（例如递归数据结构）引用其自身。这种自我引用的能力在一些情况下被认为是意识或者自我意识的标志，因为它涉及到一个系统能够反思和理解自己的过程或状态。

一个是自我意识（self-awareness），一个是自指意识（Self-reference consciousness），区别是什么呢？自我意识是指具备对自我进行反思、推理、想象等思维活动的意识系统，比如我们人脑。而自指意识，是指通过自指原理实现的具备自我反思、推理、想象等活动的意识系统。其中，后者会显然包含前者，因为后者通过自指技术实现的对自我的反思，是一种完美的映射，即通过特殊的技术实现的在空间和时间两个维度中的“完美”自我映射，而前者极有可能是不完美的自我映射。其次，后者可以被看作是自我意识的一个规范性理论，一个理论原型，而现实的自我意识系统则可能是一种不完美的实现。受到各种因素的限制和扭曲。相比之下，自指意识作为一个理论原型，提供了一个追求完美自我映射和自我理解的目标。

那如何在计算机领域实现自指呢？我们考虑两个层面，分别是硬件层面和软件层面，所以问题就分解为两个：

如何让一个机器实现自我复制生产？
如何让一段代码实现自我复制生成？

对于硬件方面，早在1965年，冯诺依曼就亲自设计过一台可以自复制的机器，参见《Theory of Self-reproducing Automata》，但在探索软件方面的自我复制时，发现了一个问题无法解决，那就是”无穷递归“问题。

Print('Hello World')

Print('Print(\'Hello World\')')

Print('Print(\'Print(\\'Hello World\\')\')')

一个经典的例子是尝试创建一个“自打印”程序，即一个程序能够输出其自身的源代码（如上所示）。初看起来，这似乎会陷入无穷递归，因为要打印自己的源代码，程序似乎需要无限地引用自身。然而，受到哲学家Quine的启发，数学家和程序员找到了一种巧妙的方法来实现这一目标，避免了递归陷阱。

这种解决方案的核心在于利用程序与其运行环境（如操作系统）之间的动态交互。通过这种方式，程序在执行过程中展开，生成与其源代码完全相同的输出。这种自打印程序通常包含两个主要部分：一部分是“模板”或“框架”（在这里称为“虚拟部分”或“虚相”），而另一部分则负责生成这个框架的实际代码（称为“实相”）。重点在于这两部分的内容是如何相互映射，以及如何通过程序的结构来确保输出的代码能够准确反映其自身。

通过这种方式，自打印程序像是在“照镜子”，其中“虚拟部分”提供了一个模式，而“实际部分”则填充这个模式以产生一个完整的自我描述。这不仅是编程和数学中的一个巧妙技巧，也为理解如何通过软件和功能结构来区分意识和非意识提供了一种思路。在这个框架下，自我意识可以被视为系统能够在功能层面上区分并整合其虚拟和实际状态的能力。换言之，如果一个系统能够在功能上区分并管理其内部表示（虚相）和外部表现（实相），那么这个系统可以被认为具有某种形式的自我意识。

其实冯·诺伊曼构造的自复制自动机，也是遵循类似的原理，实现自复制的关键就是——在时间上展开。尽管众多学者认为实现完美自指是一项挑战，因为它似乎会导致无限递归，但机器通过利用Quine的技巧能够实现完整的自引用。这相当于机器在与自身对话，通过时间的展开，逐步构建起自己的完整映像。这个过程突破了传统上认为不可能的自我反映的边界，展现了通过精巧设计实现自我认知的可能性（即自我反省能力）。

在单独分析时，机器及其描述都显示出了不完备性。然而，当我们将这两者结合，并通过操作系统或自然界的介入，按照自然时间流逝的逻辑（从t到t+1）进行操作时，就能够实现一个完整的自引用过程。这个过程的核心在于使虚拟世界与现实世界尽可能地匹配，并确保它们能够协同运作。虽然各有不足，但自然的进程能够弥合这些不足，使得系统能够自我复制和自我引用，从而达到完备。

此外，当机器与其描述形成镜像关系时，我们触及了分形理论及其在自然和技术中的应用，如冯·诺依曼的自复制结构。这种互为映像的现象不仅是自我复制的美妙例证，也展现了自引用的复杂性及其在自然界和技术领域中的相似性。

将这些思考延伸到人类对宇宙真理的追求，我们发现，尽管人类可能无法完美地理解包含自己的广阔宇宙，但通过自引用技术，我们不需要达到完美的认知水平。人类可以将自己的部分认知，比如通过AI实现的认知，与自身结合成一个整体。然后，将未知的部分留给自然去解答，这样，由人与机器组成的整体不仅能够更加精确地模拟宇宙的运作，还能促进我们对宇宙运转更深层次的理解和模拟，实现人类对宇宙真理的更接近完美的探索。

关注作者，了解更多关于AI和意识的知识

参考资料

https://mp.weixin.qq.com/s/bZlhzIuscWyQEB_2nLr1Ag

https://www.science.org/doi/10.1126/science.aan8871

https://www.nature.com/articles/s41583-022-00587-4

https://www.pnas.org/doi/10.1073/pnas.2115934119

https://arxiv.org/pdf/1803.10122.pdf

xLog

55588-43