当前位置 > 散户吧 > 财经要闻 > 经营管理 > 智子芯元AI for Computing:让高价值场景从“算不动”到“可计算”

智子芯元AI for Computing:让高价值场景从“算不动”到“可计算”

发布时间:2026-07-01 04:50来源:全球财经散户吧字号:

  从手算、算盘到通用计算机和芯片,人类不断发明工具来加速计算。但到了今天,新的瓶颈出现了。以大模型、智能体、具身智能、科学计算为代表的行业场景,把计算需求推向新的数量级,而硬件制程、功耗和成本约束越来越明显,单纯靠硬件扩张很难持续换来线性的效率提升。 本文来自散户吧WWW.SANHUBA.COM

  正是在这样的背景下,智子芯元切入了 AI for Computing 赛道——用 AI 优化 AI 计算本身,让计算加速进入新的阶段。

本文来自散户吧WWW.SANHUBA.COM

  一、为什么计算系统需要被“全面掌控”?

本文来自散户吧WWW.SANHUBA.COM

  过去行业谈算力,更关心芯片参数、集群规模和理论峰值。但在真正进入生产环境之后,问题变得更具体:同样一批芯片,跑不同的模型、框架与业务负载,实际表现可能完全不同。

本文来自散户吧WWW.SANHUBA.COM

  这种变化首先来自软硬件体系的高速更迭——芯片架构、编译器、推理框架与通信网络都在变化,任何一侧更新都会带来新的适配和调优问题。其次,高水平性能优化人才极度稀缺,真正能同时理解算法、系统、硬件并把优化结果交付到生产环境的人不多。更重要的是,计算任务本身正在变复杂——AI应用从对话式交互走向智能体执行,模型推理从单次问答延伸到长链路任务,计算负载变得更加动态、碎片化。 本文来自散户吧WWW.SANHUBA.COM

  理论上的最优算力交付方案,应该根据具体计算资源和目标场景来特化设计。但现实中,工程师很难为每一个模型、每一套硬件、每一种业务负载都重新做一遍深度优化——优化空间太大,人工试错成本太高。

本文来自散户吧WWW.SANHUBA.COM

  因此,AI for Computing要解决的核心问题,就是让AI接管更多计算优化与系统统筹环节。 本文来自散户吧WWW.SANHUBA.COM

  二、KernelCAT:让计算加速跑成自动闭环

本文来自散户吧WWW.SANHUBA.COM

  遵循 AI for Computing 的技术范式,智子芯元打造了核心产品——KernelCAT自动化计算加速平台。它通过国内首个“大模型+运筹优化+算法自动发现”的技术范式,构建可自动设计、执行、验证和迭代的计算加速智能体。 本文来自散户吧WWW.SANHUBA.COM

  KernelCAT的核心能力,是把用户的自然语言需求转化为可执行、验证与交付的优化流程。当模型、算子、计算图、业务负载、目标硬件和性能目标接入后,它会先分析计算依赖、资源约束、硬件特征和潜在优化空间,再结合AI生成、运筹优化、强化学习和硬件反馈搜索候选方案,最后在真实硬件上验证结果。

本文来自散户吧WWW.SANHUBA.COM

  这套流程可以概括为四步——分析、编码、上板调优、交付,将计算加速中的复杂环节串成一个自动闭环。 本文来自散户吧WWW.SANHUBA.COM

  更关键的是,KernelCAT面向的是一整类计算加速任务。过去,一次模型迁移或硬件适配可能需要工程师反复查文档、写代码、编译、跑测试、看profiling、调参,每换一个模型、框架或硬件,很多工作又得重新来一遍。KernelCAT解决的正是这些重复、细碎但影响交付效率的工作——让系统自动接管底层复杂流程,快速完成POC、跑通框架适配,并根据真实业务负载优化。 本文来自散户吧WWW.SANHUBA.COM

  三、Kerminal:用数学思维自主探索新解法 本文来自散户吧WWW.SANHUBA.COM

  KernelCAT家族中的Kerminal,是一套智能体系统,把模型能力、工具调用、代码执行、硬件反馈和任务流程组织在一起。 本文来自散户吧WWW.SANHUBA.COM

  Kerminal没有针对单一榜单进行专项适配,凭借更底层的通用能力和深度优化能力,在多个主流benchmark中取得领先表现。在评估AI加速GPU内核优化的基准KernelBench中,Kerminal取得SOTA成绩,正确率、平均加速比与几何平均加速比三项核心指标均位居榜首。在CANN-Bench中,Kerminal在总计53个任务中的50个完成profiling,35个完全通过,41个通过率超过95%。 本文来自散户吧WWW.SANHUBA.COM

  Kerminal展现出的能力并不只是工程排列组合。在测试任务中,如果目标硬件上的常规实现方式在大值域和特殊值场景下精度不达标,它可以在没有人工提示的情况下,自主放弃原有实现,改用多项式逼近重新实现目标,并通过反复测试和迭代让精度达标。这说明Kerminal有能力用数学思维自主探索新的实现路径。

本文来自散户吧WWW.SANHUBA.COM

  这种能力经受住了不同芯片平台的考验。Kerminal生成和优化的tile算子已合并至昇腾官方CANN算子库ops-math;reshape_and_cache_kernel_flash算子从vLLM CUDA版本迁移到昇腾后,性能从14us优化到2.58us,提升5.4倍。 本文来自散户吧WWW.SANHUBA.COM

  四、计算能力跃迁,改变“能”与“不能”

本文来自散户吧WWW.SANHUBA.COM

  计算加速能力在具体产业场景中也大显身手。在具身智能和机器人等端侧场景,RDK S100开发板部署DeepSeek R1 1.5B,端到端2小时闭环完成,吞吐性能较仓库基线提升1.5倍。在AI for Science场景,TorchFold长序列昇腾部署实现峰值内存降低70%、速度提升50%;DSDP分子盲对接模型完成CUDA生态向鲲鹏平台的迁移适配后,推理性能提升138倍。 本文来自散户吧WWW.SANHUBA.COM

  这些案例表明,KernelCAT已将行之有效的自动化计算加速方案沉淀为一套可复用、可跨平台迁移的产品能力。

本文来自散户吧WWW.SANHUBA.COM

  随着AI深度介入加速过程,计算系统里原本按清晰层级优化的方式不够用了。KernelCAT的出现让计算加速从单点调优走向了系统级优化。 本文来自散户吧WWW.SANHUBA.COM

(小编:财神)

专家一览机构一览行业一览