2024年AI商业落地的十个方向

来源：第一财经 | 发布时间：2024-01-17

轰轰烈烈的2023年AIGC元年结束了。在国内，和年初ChatGPT炸雷带来的全民兴奋相比，AI并没有给普通人的生活带来多少改变。

AI——这个当之无愧的下一代信息技术革命，没像上一波移动互联网浪潮中的微信和滴滴打车，在一年里实现“一夜春风来、万树梨花开”式的商业渗透。认真使用AI工具的人不多，现象级的AI产品完全没有出现。

在海外，ChatGPT以迅雷不及掩耳的速度斩获1.8亿用户，AI绘图软件MidJourney获得超1500万用户和数亿美元营收；微软的GitHub编程助手Copilot在9月份付费用户已超百万，多个小型APP号称获得数百万美元的订阅收入。

在硅谷和华尔街，逢人必谈AI。美股在AI芯片霸主英伟达和AI应用先锋微软的带领下，日日创出新高。

不夸张地说，若无AI，美国可能已陷入经济衰退；有了AI，美国走在了新一轮泡沫的路上。

比尔·盖茨认为：在像美国这样的高收入国家，距离普通大众使用人工智能达到显著水平还有18到24个月的时间。在非洲，他预计在三年左右会看到类似的使用水平。据此预测，2024年美国会达到人工智能的“普惠”状态。

中国和美国的人工智能差距正在拉大。由于对英伟达GPU的禁令，全世界最紧俏的商品变成了英伟达的GPU或平替，甚至有人不恰当地把GPU比作超过毒品的新一代最暴利走私品。

和争夺土地、石油、黄金的战争一样，人工智能算力、算法变成了大国军备的新战场，也成为企业家和创业者的兵家必争之地。

时不我待，何以胜出？下文我主要采用AI在医疗、金融等严肃领域的实际需求案例，探讨AI在2024年从技术到产品商业落地的10个方向：

1. 更强的多模态交互

2. 可解释性更强的人工智能

3. 更强的搜索增强生成

4. 构造自动代理生态

5. 更强、更经济节能的算力

6. 更快的AI平民化进程

7. AI与Web3结合的破局

8. 打磨用户需要的“小”产品

9. AI能力带入数据，而不是相反

10. 获取用户对AI的信任

更强的多模态交互

多模态交互类似于人类的多维感官能力。多模态人工智能可以交叉处理和分析文本、图像、语音多种数据类型。这种融合不同模式的方法使机器能够全面、立体地理解世界。

在去年圣诞节，很多贺卡由AI生成。这是从文字生成的图片和视频。从文字生成音乐和歌曲还不成熟。GPT4.0的语音对话相当给力，可以直接用中文和它对话。

以医疗领域的需求看，病人拿到血常规或肿瘤指标检查报告，想知道异常指标的意义。多模态技术的发展，可以让用户拍照上传检查报告，AI识别照片中的指标、搜索知识库、给出每个指标的含义，然后用语音告诉可能的诊断。这种体验太棒了。

在金融领域，如果上传一张K线图，AI就能识别出其形态，极大地提升技术分析投资者的效率。在芯片设计或建筑设计领域，如果能让AI读懂设计图，再设计出新的设计图，那就更厉害。

在非严肃领域，多模态会大大提高数字形象、短视频制作的效率，丰富这些应用的使用场景。

可解释性更强的人工智能

可解释的人工智能的目标在于提高AI决策过程的透明度和可理解性，从而能够更好地理解AI如何作出决策。

当前的AI决策过程往往被视为一个“黑盒”，用户无法了解模型得出结论的内在逻辑。无法被解释的决策过程，不可能在严肃商业领域获得信任。

AI看完检查报告，可以给出用药建议。如果不知道这个用药建议基于何种知识，也不知道AI作出推理和判断的过程，相信没有人敢用AI开出的药方。生命不能做AI概率游戏的试验品。

现举例说明。我问ChatGPT:“如果换算成特斯拉的行驶里程，7200兆瓦时可以行驶多少公里？”

AI会告诉我它的逻辑——为了估算7200兆瓦时（MWh）的电能可以让特斯拉汽车行驶多少公里，我们需要知道特斯拉汽车的能源效率。以特斯拉Model 3为例，其能源效率大约为15千瓦时/100公里（即0.15千瓦时/公里）。

我们可以通过以下公式计算行驶里程：总行驶里程=总电能（千瓦时）/每公里耗电量（千瓦时/公里）

现在我们可以计算7200兆瓦时（即7200000千瓦时）可以让特斯拉汽车行驶多少公里。我将进行计算（此处，AI写Python代码进行计算）。

使用7200兆瓦时的电能，一辆特斯拉Model 3理论上可以行驶约4800万公里。

以上，AI展示了一个完整的、可解释的AI推导。用户可以对每一步检查、纠错。

AI在严密的数学推理已经取得某些突破。近期，数学大神陶哲轩成功地用AI工具完成了形式化多项式Freiman-Ruzsa猜想证明过程的工作。陶哲轩大声呼吁，数学家一定要会用AI。

可解释的人工智能的实现需要开发新的算法和工具，通过可视化技术、自然语言解释或简化决策逻辑的表示，以提供关于AI决策过程的深入洞察。

综上，可解释的人工智能在医疗、科学研究等严肃领域具有巨大的商业应用价值。在这些领域，决策的透明度和可信度至关重要，AI的大规模严肃应用必须在较高的置信度上给客户以流程控制和质量控制的选项和权利。

更强的搜索增强生成

搜索增强生成（RAG）是一种结合了信息检索和文本生成的AI技术。它旨在通过从“外部”数据源检索信息来增强和改善生成模型的输出质量。

RAG使得大型语言模型能够访问外部信息，帮助它们产生更准确、更具上下文意识的回应，其目标在于提高语言模型生成内容的准确性和相关性。

在RAG系统中，当模型接收到一个查询时，首先执行一个检索步骤，查找与查询相关的信息。然后，这些相关信息被融入生成过程，实现生成内容准确性和相关性的显著改善。

以病人的需求为例，我的朋友曾亲自尝试ChatGPT 4.0搜索增强的能力。病人在服药后发生间歇性尿失禁，但尿失禁到底是不是服药的不良反应呢？在药品说明书上找不到，医生也不确定。

朋友最初给AI的问题是“卡培他滨的副作用是否包含尿失禁?”

AI的回答是：“尿失禁不是通常与卡培他滨直接关联的副作用。卡培他滨的副作用通常包括胃肠道症状，如腹泻、恶心、呕吐和口腔溃疡等。尿失禁可能是由其他因素引起的，如泌尿系统的问题、药物的其他副作用、或是与患者的整体健康状况相关。”

如果把提问改成：“搜索英文专业医学资料，卡培他滨的副作用是否包含尿失禁”，AI开始自动用Bing搜索互联网，然后它真的搜到了多个医学文献。

AI说：“根据我找到的英文专业医学资料，尿失禁被列为卡培他滨的罕见副作用之一，发生率在0.01%到0.1%之间。这表明尿失禁确实可能是卡培他滨使用的潜在副作用，尽管它并不常见。”

AI可以给出它得出这个结论的多个可靠信息来源。AI如何搜索到这些信息、如何加快搜索的速度、如何综合多个搜索结果做出推理和结论，是更强的增强搜索要做的事情。

RAG在企业级商业应用中具有显著优势。因为在面向客户的场景中，生成内容的准确性至关重要。RAG能够减少生成型AI中的“幻觉”问题。“幻觉”指的是生成听起来合理但实际上是错误的回答。在信息不对称领域，用户不能判断幻觉内容的对错。这导致AI的应用受限。

此处说一个题外话，为什么上面的例子需要指明搜索“英文”专业医学资料？因为在某些不指明英文的情况下，Bing搜索引擎用中文搜索，在中文互联网上找不到匹配的关联信息。如果用最常用的某中文搜索引擎搜索，搜索到的结果大部分是广告和商业网站上意义不相关的信息。

中文搜索引擎和中文互联网的质量堪忧是AI发展的重大问题之一。因此，和大模型相比，想办法打造更强的搜索增强生成技术，也许是在中文互联网开发产品制胜的关键。

构造自动代理生态

上面搜索增强生成的讨论，已经包含了自动代理的部分功能。

当AI经过自我学习和模型升级，当它了解到我总在搜索专业文献后，当我再次询问药物副作用同样模式的问题时，AI会自己启动搜索专业互联网的动作，而不需要我再做指示。就像我的秘书了解我的习惯、不需要我吩咐就把事情做了一样。这是自动代理的用例之一。

自动代理是一种能够自动独立执行任务和作出决策的AI系统。这些代理展现了一定程度的自主性和主动性，能够理解其所处的环境、设定目标，并采取行动实现目标，不再需要人类额外指导。

有一个开源项目叫AutoGPT，它自动分解任务的动作，然后自动分步执行，就像自动执行上面的搜索任务一样。

自动代理在多个领域具有广泛的应用前景。

2024年的订外卖服务也许会变成：你只要和AI说中午订三份我常吃的外卖和客户一起吃，不要辣。AI会自动分析你常吃的外卖、剔除辣的；它知道你是和客户吃，要吃好一点、贵一些；它根据送达的时间和午餐的时间选择商家，然后自动买一份准时达保险。这些步骤在几秒内自动完成。

不止订餐服务，个人日常助理会是自动代理的一个重要应用场景。如果苹果在2024年入局AI，Siri会变成一个更高级的自动代理。

自动代理和硬件结合，会有新的产品形态。使用AI加持的苹果公司会是自动代理领域最有实力的竞赛选手。

Humane公司开发的AI Pin是由Sam Altman支持的创新型可穿戴人工智能设备。AI Pin可以夹在衣服上，像校徽一样。它能够响应触摸、语音指令和手势，主要用于搜索和翻译信息、导航等功能，通过语音和AI聊天机器人来交流信息。这款产品预计将在2024年3月开始向消费者发货。

这意味着：未来的每个人都可以有一个随身携带的小秘书，它记录你的会议、见闻、聊天、思想，随叫随到，直到复制出你的数字生命，就像电影《流浪地球》里的数字生命一样。

显然，自动代理需要完整的闭环生态构建和安全管控，它需要打通交互、采购、物流、支付全环节。我相信在2024年，此闭环生态将露出雏形，重量级选手会入场。

更强、更经济节能的算力

当前AI发展的一个关键限制因素是对大量计算资源的需求。这不仅增加了成本，而且导致了巨大的能源消耗。

AI聊天工具导致大型科技公司的水资源使用量剧增。计算产生热量，进而需要大量水资源冷却设备。

有数据表明，由于AI产品（如ChatGPT）日益受欢迎，微软的全球水资源使用量增加了超过三分之一，达到了近17亿加仑。谷歌的水资源使用量也比前一年增加了大约20%，约为56亿加仑。研究员估计，使用GPT回答5到50个问题，大约消耗500毫升的水。

电力方面，根据估算，训练GPT4.0耗时150天，耗费电力720万度电，这些电够特斯拉行驶4800万公里。（这个换算是我在上文“可解释的AI”部分的例子。做任何事情，我都想用AI试试看，不试不知道，一试吓一跳。）

2024年需要更高效的AI算法以在减少计算资源需求的同时提高模型的性能。硬件方面，业内也在寻找新的材料和设计，如量子计算，以期实现更高效的数据处理、降低能耗。

在芯片禁令下，突破原有技术路径，寻找升维竞争的突破口，可能是中国企业的机会。这需要强大的风险投资资本支持。

对GPU的需求刚刚开始。当全球有20%的人，每天使用AI的时候，GPU的需求将增长百倍。美股科技股的天花板还很高。能在中国实现GPU“平替”的企业可以赚大钱。

更快的AI平民化进程

这又被称为开发的民主化。它的含义是，AI的易用性使得人与计算机的深度互动简单到像聊天一样，几乎任何人都能够成为开发者。

AI开发的平民化意义重大。它意味着更多的人可以参与计算机产品的开发，不再局限于专业技术人员或拥有高级编程技能的人。

AI打破了计算机科学的技术壁垒，其实质是硅基生命向碳基生命敞开心扉，人类用自然语言就可以实现深度计算机技术的实现。

当大量不同背景的人都能参与到这场信息革命的浪潮中，此种多元化的参与带来了更广泛的视角和创新的可能性，必然极大加快人类技术爆炸的速度。

其意义重大程度，堪比近1000年来，人类完成的识字扫文盲运动。从第一封电子邮件发出，到人类普遍掌握互联网技能，用了数十年。而用多模态技术的交互方式，AI可以用3年时间完成高难度计算机技能向人类白丁的普及，速度加快十倍、百倍。

用户友好的工具和界面的开发同样重要，它们能够降低AI开发的复杂性，使其更易于理解和操作。自动化和智能化的开发工具将极大地减轻人工编程的负担，提高开发效率。

预计2024年的AI编程工具将更加强大，平民化的进程会进入加速发展期。在AI的帮助下，一个没有编程基础的普通人可以编写出任何他想要的应用，如同文字扫盲运动让普通人不再需要找人代写信、自媒体技术发展让每个人不再需要找期刊投稿就能发表自己的观点。

回到医疗的例子，一个肿瘤病人，有过去30个月每周的检查结果数据，他想知道他的肿瘤指标变化的趋势。这些结果存储在医院的系统里，医院的信息系统不对病人提供历史数据摘录和比较功能。病人或家属需要手工摘录出每个异常指标，记录下来，划出曲线。有了AI，病人可以让AI写一个APP，每周把纸质的检验报告拍照上传，然后AI自动识别结果，并更新画出变化趋势图。

在目前的软件范式中，用户需要寻找能满足自己需求的软件，软件开发者需要在很多人的差异化需求中寻找公约数，小众用户的需求不能被满足。AI平民化将从根本上改变人使用计算机的方式和软件开发行业的商业图景。

在AI平民化的浪潮中，中国有可能会尤为被动。在物欲横流的冲击下，中国没有像样的程序员社区，中国的教育体制培养出的是在AI时代被抛弃的程序员和知识搬运工，有科学钻研精神的人不多，全民创造力无法被激发。AI平民化水平低的国家将在未来的生产效率和创造性竞争中，落后于AI平民化水平高的国家。

AI与Web3结合的破局

OpenAI创始人Altman支持的一个Web3项目是WorldCoin。WorldCoin运行在以太坊区块链上。它要做的是建立一个全球最大、公平的数字身份验证体系。为了区别谁是活人、谁是机器人，WorldCoin通过扫描人眼的虹膜来实现身份认证。到今天，已经有数百万人主动接受了WorldCoin的眼球扫描。如果不是区块链和数字世界的“原住民”，普通人很难理解这个项目的意义何在。

以区块链技术为基础的Web3在2022、2023年陷入低谷，Crypto市场处在慢慢熊市的尾端。技术信徒们的创业热情从Web3完全转移到了AI。

区块链作为数字世界的“生产关系”基础设施，和AI作为数字世界的“生产力”激发工具，有天生结合点。如果相信硅基生命的未来，硅基生命的载体应该存在于区块链上。

否极泰来，自2023年11月开始，区块链资产获得了巨大涨幅，热情被重新点燃。2024年，伴随区块链市场的复苏，AI和Web3在去中心化算力、AI经济价值的实现、智能合约自动化与优化、去中心化数据市场、个人隐私数据的使用、AI创作数字艺术品、数字孪生等方面，会找到突破点。

值得警醒的是，这种突破将快速产生暴富的机遇和归零的骗局。

打磨用户需要的“小”产品

AI时代的大平台、大公司将垄断基础设施，大语言模型的终局只会有2到3家企业和开源模型。AI创业者需要认清这个残酷现实，没有颠覆性的创新和极强的资本能力、执行能力，不要走向“一将功成万骨枯”路上的“白骨”之一。

基于此逻辑，大型科技公司将在平台战斗中巩固先机。从硬件到软件，在开发“+AI”产品的战役中，大公司的实力明显。基于此，AI将极大推动全球的资本开支、经济强势和科技股的牛市。

对应用型开发创业者，必须聚焦打磨用户需要的、完全AI原生的“小”产品。Web 2.0时代烧钱获得用户规模经济的打法不复存在。用户在APP上任何使用AI的动作，都需要支付费用，没有人会用免费模式烧这么多钱。

只有打磨出真正客户需要的产品，帮助客户提升效率的产品，才是王道。开发者需要从第一分钟开始，就有用户付费意愿认可。这种产品不怕小众。但是，由于AI开发平民化的快速发展，创业者开发出成功产品的难度越来越大。

而为了打磨产品，创业者最重要的能力是把需求产品化的能力，要跟上大平台快速迭代的AI技术发展，然后快速而经济地应用到产品需求中。

AI能力带入数据，而不是相反

英伟达金融行业高管认为，随着人工智能的进步呈指数级增长，金融服务公司将把计算能力带入数据，而不是相反。

并非只在金融行业。事实上，沉淀在企业和个人的优质数据已经足够庞大，问题是如何用AI能力全新地发挥这些数据的生产力。学术期刊数据库《知网》也推出了人工智能助手。开发者不需要守着金矿向外寻觅。

据麦肯锡公司称，像ChatGPT这样的深度学习算法，经过企业数据的进一步训练，每年可以在63个业务用例中增加相当于2.6万亿至4.4万亿美元的收入。巨大的金矿等待被挖掘。

开发者应聚焦用AI加持现存的有价值数据，满足用户的效率要求、让大数据在AI时代的场景中开始赚钱。

获取用户对AI的信任

经过2023年的新鲜感，用户不想再把AI当玩具，而是想用它实现靠谱的真实价值。即使是情感陪伴机器人，也需要有血有肉有情感的真实体验。

能率先可控、准确、高质量地按照用户指示完成任务的AI产品将在2024年获得大发展。

与此同时，构建信任需要更多早期用户拥抱AI的意愿。一件新型事物的普及，如同一个石子投入池塘产生的涟漪。

AI是个新物种，产品开发人员和用户都需要学习如何和它相处。此种适应的过程需要工作方式、思维模式的根本转变。

我认为，不管人还是AI，判断是否有价值内容的金标准是“独立而有价值的思想”。AI和人类的互信模式会和以往的互信模式不同。

工业革命中，机器的意义是帮助人摆脱了重复和繁重的“体力”劳动；AI智能的终极意义是帮助人摆脱重复的“脑力”劳动，帮助人更好地创新。在此目标下建立的可以信任的AI智能机器，可以跳出任何旧法律的束缚，而不应该受到惩罚。

2024年AI商业落地的十个方向

来源：第一财经 | 发布时间：2024-01-17

Exploration of AI Vision

价值风向标