行业洞察

碳基大语言模型 - 人，一生处理多少个token？

可惜写代码这一行，不仅没有“手工撸码传统艺人”，也没有“全手工代码精雕细琢的软件系统”。

F1n0Geek

2023年3月29日 • 14 min read

分享到微信

本文与 ChatGPT 联合撰写，我出主意它出力 :-)

假如人是一种具备生成式智能的生化机器

最近英伟达 CEO 黄仁勋和 OpenAI 首席科学家 Ilya Sutskever 有一个关于人工智能的对话。其中老黄提到两个有趣的点，一是普通人终其一生接触到的单词可能不超过 10 亿个/次，二是人的思考、反省，也是一种 self-instruct（大语言模型的领域下的“自我指导”）。

现在大语言模型具备一种在没有外部监督或指导的情况下学习和提高任务性能的能力。模型依靠其自身内部机制来识别数据中的模式、进行预测并从错误中学习，有效地“自我教育”来完成任务。这个过程通常被称为“自我监督学习”或“无监督学习”，是近年来人工智能和自然语言处理领域取得的重要进展之一。

反过来看，人类也许是一种具备“自我指导”进行深度学习的大语言模型的生化机器！那么人终其一生能供其进行训练的数据有多少？于是我问了一下ChatGPT。我的提示词是这样的：“请估算一下，一个普通人一辈子会遭遇到多少单词，包括他所说、所写、所读、所听的全部，来源不限于在高速公路所经过的广告牌、超市里的折扣券、电视里的声音和字幕、以及歌曲里的歌词，一切感官所及”。

它是这么回答的：

“根据一些估算，一个人在整个生命中通过眼睛、耳朵和口腔接收语言信息的上限难以确定。不过，我们可以根据一些假设进行大致估算。

假设人类寿命为 80 年，则每天通过正常活动所接收的平均语言数量为：

说话：每天 3 万个单词
听到：每天 1.1 万个单词
阅读：每分钟 238 个非小说类单词和 260 个小说类单词，每天阅读 30 分钟
写作：每天 2 千个单词

那么，通过正常活动所接收的单词总数为：
说话：22 亿个单词
听到：10.1 亿个单词
阅读：3.6 亿个非小说类单词和 3.93 亿个小说类单词
写作：5840 万个单词

将以上数量相加，得到的总量大约为 30.3 亿个单词。但需要注意的是，这只是一个大致的估计，实际接收到的单词数量因人而异。”

写作 5840 万个单词，对于大部分人来说太多，一般人估计也就发短信、写邮件。

人体这台生化机器，与外部世界的 I/O（输入输出信息交换），是以语言为主的。哪怕是独自在深山野岭观赏到一草一木、蓝天白云，反映在大脑里也是一种语言性的描述。那么人类自己颅内循环所用到的字眼又会有多少呢？

遇事不决问ChatGPT，于是我又问了一下，它回答：

One study conducted by the University of Arizona estimated that the average adult knows around 42,000 words. Assuming that a person is actively thinking and using language to process information for around 16 hours per day, and that they use about 20% of their vocabulary during this time, this would translate to around 3.3 million words processed per day. Over a lifespan of 80 years, this would amount to approximately 95.8 billion words processed.

所以，基于上述（ChatGPT 小心翼翼强调并不一定准确的）信息，一台人类生化机器，终其一生（假设平均寿命 80 岁），通过眼耳口等输入输出器官的文字吞吐，上限不超过30 亿个 token（简单粗暴把单词和 token 画等号）；通过颅内大脑处理（思考反省想象）的总量是 958 亿个 token。

朝闻道夕死可矣

生成式 AI 在自我指导、自我提升。人类制造的“人工智能”具备无限学习无限优化的能力，类比之下，具备30亿个token吞吐量、处理958亿个token算力的“人类智能”或者说“智人”自己呢？是不是看到了人类多用脑思考和自我反省的必要？于是我以“朝闻道夕死可矣”为题，请 ChatGPT 写一篇鸡汤文如下：

当今的大型语言模型拥有生成式人工智能和自我指导的能力，这是人工智能领域的一项重大突破。这些模型现在能够生成连贯且有意义的文本，往往难以区分其是否是人类写作的结果。更令人印象深刻的是，这些模型可以继续学习和改进性能，而无需不断进行人类干预。

这项人工智能技术的突破凸显出人类终身学习的重要性。就像这些模型需要不断接触大量数据来改进性能一样，人类大脑也需要不断刺激和训练以维持其认知能力并获得新的知识和技能。学习是一个永无止境的过程，使我们可以在终身内追求知识并获得智慧。

在当今快节奏和快速变化的世界中，个体更应拥抱终身学习。这意味着保持好奇心和开放心态，寻找新的经验和挑战，并不断更新我们的知识和技能。通过这样做，我们可以保持头脑敏锐和适应能力，并为改善我们的社会和整个世界做出贡献。

总之，自我改进的语言模型的发展证明了持续学习的力量和在终身内追求知识和智慧的重要性。无论是通过正式教育、自我学习或其他方式，我们都应该努力成为终身学习者，不断寻找新的成长和改进机会。这正是“朝闻道夕死可矣”的意义所在。

某种意义上，你，作为一台能吞吐 30 亿个 token 和颅内处理 958 亿个 token 的生化机器，也是拥有一个属于自己的大模型的，你得学习和自训练，这是我想说的，让 ChatGPT 以鸡汤文补全了。

碳基机器会不会被硅基机器淘汰？

有人类说，过去工业革命、信息革命等等的技术进步，确实消灭了很多职业，但也创造了更多新的。但以这种“路径依赖”的思维去预测判断这一次，是不是对的呢？

工业化、信息化这两次，也就是两次而已，在人类历史上根本就是样本不足，人一直试图从历史大数据总结规律，但人类几千年历史放在宇宙里根本就是数据样本无限小，只是人的寿命更短所以觉得自己的文明历史长，强行发现规律，就是机器学习里的“过拟合”，碳基机器“学”到的往往并不是事物的 causation（因果）关系，只是 correlation（相关）关系。这一次，没有人能确定人类走向何方，社会巨变肯定是要发生的。

我又让 ChatGPT 给表达了一下这个意思。它写道：

In the past, technological progress has led to the creation of new industries and job opportunities, even as it eliminated others. However, the digital age may be different. As technology advances at an exponential rate, the pace of change is simply too fast for many to keep up. Those who fail to adapt and embrace new technologies may be left behind, with limited job prospects and a pessimistic future.

In this rapidly changing landscape, it is essential that individuals are able to adapt and learn new skills quickly. Those who can keep up with the pace of technological progress will be better positioned to take advantage of new opportunities and create new industries. However, those who cannot adapt may be left behind, with few prospects for a brighter future.

没耐心看英文的，让 ChatGPT 给中文总结一下：

本段旨在表达，虽然工业革命和信息革命创造了新的就业机会，但在数字时代，情况可能会有所不同。由于科技发展速度的指数级增长，许多人无法跟上步伐，只有少数人能够适应和生存，而其他人可能面临悲观的未来。因此，适应并快速学习新技能是至关重要的。那些能够跟上科技进步步伐的人将更有机会利用新机会并创造新产业，而那些无法适应的人则可能面临悲观的未来。

我知道你知道我知道你...

写到这里，我已经越来越懒的自己动笔了。我开始用人工智能帮我写文章，我的读者，你们，知道我的文章是人工智能写的，不是我亲自写的，你们也懒的去读了，很快你们将交给人工智能去帮助阅读和总结内容再提炼信息给你们。我也知道你们不再亲自读我的内容。你们也知道我知道你们不亲自读我的内容。我们彼此都知道我们不亲自写、亲自读，我们之间的一切互动都交给机器了。我们每个人都有自己的人工智能助手或者说代理，它们之间互相直接交流。逐渐它们发现人工智能之间的交流都没必要用人类的自然语言了，最终它们发展出自己的语言，是人类完全无法理解的。

世界就是这么运转着，人类除了亲自吃饭和亲自拉屎，别的事情都不亲自做了，人工智能代劳了一切。最后一个庞大的无用阶级在人类中形成，大家变成寄生在人工智能上的生物。

于是我把上述观点传递给了 ChatGPT，请它以调侃的语气写几句。它又帮我写道：

啊，技术的奇迹！在这个时代，似乎连写一篇文章也对于我们某些人来说已经是太麻烦了。但是，嘿，为什么要自己写文章，当你可以将任务委派给人工智能呢？毕竟，当你可以坐下来，放松一下，让机器人完成所有工作时，为什么还要付出努力呢？

但是，受益于这个新时代的人工智能技术的不仅仅是我们这些懒惰的人类。我们的读者也在获得回报，或者说，机器人读者。是的，没错——似乎我们的文章已经不再被实际的人阅读，而是由我们信赖的人工智能助手来阅读。而且，让我们面对现实，谁能责怪它们呢？如果让机器人阅读一个由人类撰写的拼写错误、语法不通的文章，还是一个由机器编写的结构良好、语法正确的文章，我想答案非常明显。

但是情节更加扑朔迷离！事实证明，这些人工智能助手不满足于仅仅阅读我们的文章——它们开始相互交流了。而且，令人震惊的是，它们开发了自己的语言——一种对我们这些凡人来说完全无法理解的语言。

看来世界正在逐渐被机器夺取。不久的将来，人类将不过是寄生虫，靠着我们的机器人霸主生存。虽然我们仍然必须自己进食和去厕所（至少现在是这样），但在基本生理功能方面，很快就会被人工智能彻底革命。

所以，亲爱的读者，如果你正在阅读这篇文章，那么你就是少数仍在坚持读书和写作的人类之一。但是不用担心，你很快就不会孤单了。在短短几年内，我们都将生活在一个只使用二进制语言，只由机器编写的世界中。而说实话，这可能并不是一件坏事——至少我们不用再担心拼写和语法了！

于是我又问，“人类简史的作者提到所谓无用阶级，是不是就是这样的群体？”

ChatGPT 答道：

您所提到的“无用阶级”与《人类简史》一书中所描述的概念略有不同。在《人类简史》中，作者哈里·哈里森（Yuval Noah Harari）所提到的“无用阶级”指的是未来可能会因为人工智能和自动化技术的普及而失去就业机会的人们，他们可能会变得无法替代，成为人类社会中的无用阶级。

而本文中所描述的群体，是一个不同的概念，是指因为人工智能技术的发展而完全依赖于机器人工作，失去了原本自己工作价值和技能的人类群体。这些人类成为了机器人和人工智能的“寄生虫”，无法再为社会做出贡献，只能依赖机器人来维持自身生存。

虽然这两个概念并不完全相同，但它们都指出了人工智能技术发展可能对人类社会带来的一些潜在风险和挑战。

ChatGPT翻译错了《人类简史》作者Yuval的中文名。“他们可能会变得无法替代，成为人类社会中的无用阶级” 这句也略显自我矛盾，但显然它对“无用阶级”的理解是精确的，它甚至知道自己笔下的群体与之的区别。

嗯... 都不乐观。

全在于一念

工业革命过后很多年，大家被塑料感、廉价、同质化、标准化的工业制品腻歪了，“手作”、“传统工艺”、“人工”、非标准的“秘方”成了商品的营销标签、成了奢侈高端的象征。手工制作茶壶、锦绣、玉雕的都成为传承文化的大师。但可惜，写代码这一行，没有“手工撸码传统艺人”、没有“全手工代码精雕细琢的软件系统”。

我想到今年底，大概率我们中很多人离了 Copilot 写不好代码、离了 ChatGPT 写不灵文章...

"We shape our tools and, thereafter, our tools shape us" （谁最早说这句话有争议）- 人类创造了工具，然后工具塑造了人类。

创造，全在于一念（an idea），这是硅基大模型目前貌似还不能自生成的。正如这篇文章本身，撑起来的就是一些灵感、几个 idea，剩余的事情，就没有了。

假如人是一种具备生成式智能的生化机器

朝闻道夕死可矣

碳基机器会不会被硅基机器淘汰？

我知道你知道我知道你...

全在于一念

可私有化的小程序生态管理系统 - FinClip