制约 AI 发展的关键因素主要包括算力方面:
Source:Midjourney生成式AI热潮是以算力是为基础的。其独特性在于算力的大小直接影响着数据处理能力的强弱,更大的算力造就更好的产品。通常情况下,研发投资与产品的价值直接挂钩,且这种关系明显是亚线性的(这种增长并不是成比例的,而是逐渐减缓的)。但人工智能行业并非如此,推动行业发展的主要因素就是训练和推理的成本。虽然我们不知道真实成本是多少,据可靠信息得知,算力缺口巨大,需求高达10倍!所以我们可以公平地说,现在,获得算力资源——以最低的总成本——已经成为AI公司成功的决定性因素。事实上,许多AI公司将其募集资金的80%以上用于算力资源!在这篇文章中,我们试图分解AI公司的成本因素。绝对数字当然会随着时间的推移而变化,但我们并没看到AI公司受算力资源的约束得以快速缓解。下面希望为大家提供一个有用的思考框架。
算力:3D堆叠、石墨烯、量子计算、高温超导。算力对于AI的价值更加直接,NVIDIA的股价可能就是最直接的例子。算力的提升目前还在性能上(而不是硅片栅-漏极间隔的物理尺寸上)继续延续着摩尔定律;但量子隧穿效应-普朗克长度的理论限制是AGI也无法突破的,因此,一定要有除了工艺尺寸缩小的其他方案。我并不是专业人员,没法给出比较靠谱的判断,从分析上能看到的几条路可能会有继续在硅基上发展:3D堆叠形态等(需要更好散热)材料创新:硅基掺杂、石墨烯片等如果再跳脱一些到计算原理的层次,就是量子计算。量子计算目前距离商用可能比可控核聚变还更远,目前的应用方向主要还在量子加密传输上,在“计算”上需要突破的理论和技术都还有不少。除了计算速度之外,另一个阻碍算力进展的是传输速度:可以想见高速网络会进一步进化、片间链接、片上内存等技术都会有明显的进展。最后,是能耗和散热问题。这里的明珠是高温超导技术。去年已经有好几篇半造假的“高温超导突破”,今年加上了AI或许就会有真的突破。广义机器人。
如今,人们普遍认为最佳参数数量和训练数据集的大小之间存在一种相关性(有关更多信息,请参阅Deepmind的[Chinchilla工作)。](https://www.deepmind.com/publications/an-empirical-analysis-of-compute-optimal-large-language-model-training)当今最好的LLMs是在[Common Crawl](https://commoncrawl.org/)(45亿个网页的集合,约占现有所有网页的10%)进行训练的。训练语料库还包括维基百科和藏书,尽管两者要小得多(现存书籍总数估计只有[10亿册左右](https://booksearch.blogspot.com/2010/08/books-of-world-stand-up-and-be-counted.html))。人们还提出了其他想法,例如转录视频或音频内容,但这些想法的规模都无法与之相媲美。目前尚不清楚我们是否可以获得比已使用数据大10倍的非合成训练数据集。GPU(图形处理器)的性能会继续提高,但速度会变慢。摩尔定律仍然有效,它预测了芯片上晶体管的数量和核心的数量会不断增加,从而提高了计算能力。但是,功耗和I/O(输入/输出)成为了限制因素,因为它们会影响芯片的运行效率和稳定性。此外,许多优化芯片性能的方法已经被使用过了,没有太多的空间来进一步改进。