纯阳书评第579期《 纯阳子讲人工智能系列之六:传统企业如何与模共舞(垂直行业大模型篇)》
上一期盘点了当前大模型AI,并梳理了未来中美大模型发展趋势。认为中美是大模型研究的绝对主力,美国大模型率先突破,保持一路领先,中国大模型奋勇直追,发动百模大战,未来中美继续争雄,联袂前行,受伤的将是其他玩家。本期探讨传统企业该如何与模共舞,如何在企业中落地AI,取得实效,赢得先机。
第一、传统企业无需参与通用大模型的研发
传统企业下场参与通用大模型的训练既无必要,也不可行。
1、无参与必要。
在上一期《纯阳子讲人工智能系列之五:当前大模型AI盘点和下一步趋势》中提到,中美两国科技巨头和AI专业公司已经推出了为数众多的大模型,就在刚刚过去的2023中国企业还轰轰烈烈地掀起了百模大战,一方面这些大模型基本上都对外提供企业级服务,愿意与传统企业展开切入具体行业和业务场景的应用合作,另一方面还有不少公司甚至还做了模型的开源发布,比如美国的LLaMA 3、BLOOM,中国的Skywork-13B系列和源2.0。可见目前传统企业可以获得的基础大模型资源已经很多,所以没有亲自下场重复制造轮子的必要。
2、几无参与可能。
大模型爆发需要满足算力、数据和算法三要素,所以第一个问题就是成本问题。大模型训练成本不菲,比如GPT-3训练一次仅算力成本就约为140万美元,对于一些更大的LLM模型,算力成本介于200万美元至1200万美元之间,如果再加上数据准备相关成本,技术人员的人工成本,那么成本还要提升。这还是按照性价比很高的公有云方式测算,如果按照私有云方式测算,那么初始投入成本肯定至少还要高一个数量级,这样的高昂成本足以使绝大多数传统企业望而却步。
第二个问题是人才问题。大模型训练所需要的深度学习专家、数据科学家等人才与传统企业现有的信息化和数字化人才在知识储备和技能要求上完全不同,企业要想下场参与通用大模型的训练,就必须通过外部招聘和内部人员培训来解决人才问题,难度不下。
所以综合考虑必要性和可能性,传统企业除非有极特殊考虑,都不应该下场参与通用大模型的训练。
第二、传统企业应积极参与垂直大模型的研发
1、需要垂直行业大模型
传统公司现有运营手段和方法所构建的运营模式中存在着大量亟待提升的痛点和问题,亟需应用大模型AI切入具体业务运营和管理场景,优化运营,提升效率,减少人工,重塑流程,降低成本,控制风险,开展业务创新,改善用户体验。
能够切入业务场景的大模型需要掌握行业领域知识,而大模型的训练逻辑决定了通用大模型一般不具备行业领域知识。大模型的智能来自于数据,有什么样的数据,才能有什么样的智能。而通用大模型训练用的是电子书、网页等自然语言等通用数据,所以这类模型通常具有回答问题、创作文本、代码生成、图像生成、多模态理解等通用的能力,但不掌握具体行业的专业知识。所以传统企业需要拥有行业领域知识的垂直行业大模型,来解决业务运营痛点。
2、垂直行业大模型从哪里来?
要想让大模型拥有行业知识,具有垂直领域智能,那么必须要用行业数据、场景数据去做进一步的训练。这就像一个人一样,高中之前学的都是通用知识,到了大学除了继续学一些通用知识之外,还要学专业知识一样。所以为了培养大模型成为专家,还需要给大模型喂专业数据,既要让它们在专业领域里学到人们已经知道的知识,还要发现人们目前还不知道的知识。
那么行业数据在哪里?目前搞大模型的这些公司手里边有技术、有人才、有算力,可惜缺的就是数据,而行业数据和进一步细化的场景数据都在传统公司手里,或者是在传统公司目前运营的具体场景里,这就意味着传统公司在搞行业垂直领域大模型上拥有显著的数据优势和场景优势,以及由这种数据和场景优势所带来的卡位优势。
所以传统公司在行业垂直大模型的研发和应用上必须亲自参与、亲自下场,积极与大模型专业公司合作协同,在其通用大模型的基础上以合作的方式推进行业垂直大模型的训练,并在此基础上推进大模型的应用场景创新。
当然也有一种路线认为,可以或者是就应当直接从行业数据开始训练垂直行业大模型,但考虑到传统公司有数据但没有能力,而专业公司有能力而没有数据,难度较大,所以本文不对这种可能方向做进一步探讨。
第三、传统企业进入垂直大模型的三个关键环节
传统企业手握数据和场景优势,所以垂直行业大模型绕不过传统企业,大模型投入成本和技术门槛很高,传统企业又不可能单干,必须和专业大模型公司合作。那么问题来了,相对于其他数字化项目,传统企业应该如何参与垂直行业大模型的研发?传统企业进入垂直大模型的路径包含以下三个关键环节:
1、选择大模型
选择大模型也是选择合作伙伴,要考虑五个要素,一是模型效果和模型性能,这是选择大模型的基础。模型性的能高,一方面意味着模型进一步行业化训练之后的性能也会相对较高,另一方面意味着合作伙伴技术路线好,技术实力也更强大,大模型的效果和性能是双方未来合作的基础。
二是合作伙伴的技术实力,要关注合作伙伴是否拥有先进的大模型研发技术和丰富的实践经验,重点关注有无有成功案例,特别是在相关垂直行业的应用经验,合作伙伴的技术实力将为未来合作成功提供保障。
三是合作伙伴的定制化能力。要关注合作伙伴是否能够根据企业的特定需求提供定制化的解决方案,是否能够灵活调整模型以适应企业的业务流程和需求变化,是否具备完善的工具链,支持便捷的二次开发和模型再训练,支撑模型更好迭代。
四是成本和收益是否合适。训练和应用垂直行业大模型归根到底是要解决问题,并带来效益,且还要让效益大于投入成本,所以要关注伙伴否提供透明的成本结构和合理的定价策略,并在此基础上预先评估好与不同伙伴合作的成本和收益。
2、选择合适的协作模式
行业大模型项目与传统数字化项目至少有三个不同点,需要企业特别关注。一是大模型项目的生命周期不同于一般IT项目。一般IT项目分为清晰的建设期和运行维护期,但是因为大模型需要多次训练,性能才能持续提升,无论是基础大模型还是行业大模型往往会更加频繁地训练、迭代和升级,所以模型项目建设期和运行维护期将会交叠在一起,往往表现为建设期+运行维护期+建设期+运行维护期的模式,建设期和维护期很可能相伴相生,长期并行存在。
二是大模型项目的不确定性大于一般IT项目。一般IT项目往往目标明确,路线清晰,需求框架相对清楚,所以项目具有很强的可计划性,总体不确定性较小。但是大模型项目除了具有IT项目的特点,还具有科研项目的属性,需要探索,需要试错,作为一种创新项目,内含相对更强的不确定性。
三是大模型项目的技术领域不同于一般IT项目。一般IT项目往往是围绕企业业务运营、客户营销、生产制造、日常办公、财务管理及其他职能管理的ERP、MES、CRM、SRM、WMS、TMS等项目,所涉及IT技术都不出圈,但是大模型项目所涉及的部分IT技术是出了圈的,这就对传统企业的IT技术部门带来了显著的技术压力和知识困难。
所以传统企业需要与大模型专业公司构建一种跟项目属性更为匹配,跟项目要求更为契合的合作关系,这种合作关系要比与传统IT供应商更为紧密、更为有力。要构建一种资源互补的合作关系,传统企业出数据,专业公司出技术;构建一种共同研发模式,传统企业出场景和需求,专业公司出方案;构建一种联合投资模式,传统企业和专业公司共担风险,共享收益;构建一种知识产权共享模式,传统企业和专业公司共享知识产权;构建一种市场推广合作模式,方共同推广行业大模型,分享市场收益。
3、突破速赢项目
行业大模型研发项目属于创新项目,基本没有先例,尽管前景客观,但是依然充满不确定性,所以为了降低项目风险,尽早完成技术应用验证,尽快取得实际效益,有必要在大规模应用和落地之前,率先以低成本的方式启动速赢项目,为后续推广积累经验,获取数据。
速赢项目的选择要考虑三个因素,一是项目要解决生产经营中痛点强烈的问题。任何技术都要以解决问题,尤其是解决生产经营中的痛点问题为目的,只有解决这样的问题最能打动人心,最有效果,也最有说服力。所以大模型项目要围绕生产经营中的流程优化、效率提升、风险管控等领域选择痛点强烈的问题。
二是项目成本要相对较低。项目必然涉及金钱、人力资源的投入,如果项目失败,所有投资都将打水漂,所有投入都将成为沉没成本,除此之外还将承担机会成本。所以一个速赢项目就不可以贪大求全,上来就搞梭哈式的大手笔,而是坚持小成本试错,选择投入不多,即使损失也不会造成太大影响的投资。
三是项目复杂度要相对较低。项目复杂度与项目风险直接挂钩,复杂度过高会带来额外的项目风险和不确定性,也会影响项目进度的按期达成和项目交付成果的质量。所以在选择速赢项目时,要选择项目复杂度相对较低,容易实现的项目。
4、整体规划,逐步推广
大模型项目的落地和应用也需要整体规划,逐步推广,但是与一般IT项目又有诸多不同。
一是先有速赢试点项目,后有整体规划
传统企业的IT项目有一个一般打法,先整体规划,然后试点先行,然后再逐步推广,之所以能够整体规划,是因为项目的确定性很强,不确定性相对较小,总体可控。但是大模型项目是创新型项目,充满不确定性,比如基于行业数据训练出来的第一版垂直行业大模型性能能够达到什么水平?后续升级版本预期情况有怎么样?在应用过程中会出现什么问题?诸如此类的情况都充满不确定性,缺乏足够的实践经验和参考对象,所以不具备上来就整体规划的条件。只能是在通过速赢项目的成功取得一定经验、知识、数据和信心后,心里有了底之后,再基于对大模型应用的总体判断和假设做整体规划和应用的推广。
所以大模型速赢试点项目在前,整体规划在后。
二是大模型的整体规划要充满弹性
大模型项目的不确定性和创新性决定了整体规划构建在了很多假设和预判上,而这种假设与预判相对于传统IT项目充满了更大的不确定性,所以规划要富有弹性,既要能够起到对项目推进指导的作用,也能够随着项目推进过程中发现的新情况、取得的新经验、学到的新知识、遇到的新问题,及时有力的对规划做出富有活力的调整和迭代更新,既让规划充满生命力,又让落地符合实际情况。
三是大模型项目落地要积极采用精益方法论
大模型项目充满不确定性,逻辑上没问题,专家判断也没问题,并不能保证项目落地过程中真的没问题,所以有必要采用精益方法论完成项目的建设落地,积极采用MVP的方法在落地之前完成观念、产品等多个层面上的验证。即在项目开始之时,要抓住需求核心,提取痛点主题,构建主要的核心功能,尽快到具体场景中完成验证,判断实际结果与预期的差距,及时调整思路逻辑和产品逻辑。以低成本的方式完成试错、探索,以快速的方式完成迭代和升级。
说到这里,想起来几十年前的一句话,不上ERP等死,上ERP找死,现在貌似历史在大模型AI上又一次轮回。但是这次与上次不同的是上ERP死不了人,顶多是把人累死,但是上大模型或不上大模型看起来真的会死人,不上企业会死,上了员工会死。