发布日期:2024-09-19 16:57 点击次数:198
手脚一家提供旯旮诡计和云基础设施管事的公司,Fly.io 让全球应用方法的启动和处治变得愈加粗莽。创举东说念主 Kurt Mackey 的缱绻是与 AWS、Azure 和 GCP 等大云管事提供商竞争。几年前,Fly.io 对 GPU 的需求进行了斗胆押注,认为改日设立应用的公司齐会需要 GPU,于是推出了 Fly Machines——粗略在亚秒级速率启动和住手的捏造机。关系词,三年后的今天,Fly.io 承认他们的判断诞妄。Kurt Mackey 得当叙述了这一进程和提醒。
原文连合:https://fly.io/blog/wrong-about-gpu/
作家 | Kurt Mackey 责编 | 苏宓
出品 | CSDN(ID:CSDNnews)
咱们正在使用我方的硬件构建一个全球云。为此,咱们筹集了资金,何况作念了一些投资。而这么作念的原因之一便是:为了让咱们的客户粗略使用 GPU。绵薄来说,GPU 关于加快 AI/机器学习(ML)任务很伏击。然则经逾期辰后咱们发现:GPU 诚然很伏击,但骨子上它的应用还没达到咱们想象的程度。
几年前,咱们作念了一个投资押下赌注,认为向互联网用户提供应用方法的公司可能需要 GPU,以此用来加快 AI 和机器学习任务。基于此,咱们设立了 Fly GPU Machine。

什么是 Fly GPU Machine?
Fly Machine 其实便是在咱们全球的裸金属管事器上运行的捏造机,内部是一个 Docker/OCI 容器。而 GPU Machine 则是在 Fly Machine 的基础上,加入了一个硬件映射的 Nvidia GPU,能让它更快地实行 CUDA 诡计。
跟行业其他公司一样,咱们判断 AI 和机器学习会变得独特伏击,以至可能低估了它的影响力。不外,咱们作念的这个家具似乎没能实足相宜当下的需求。也便是说,这个投资当今看起来没那么收货。
如果你正在使用 Fly GPU Machine,别惦记,咱们不会把它们取消掉。但如果你在等咱们推出更刚劲的版块,可能得再等一段时辰。

设立这个家具花了什么代价?
GPU Machine 对咱们来说不是一个小样式。Fly Machine 运行在一个独特小的捏造化处治方法上(常常是 Firecracker,但 GPU Machine 使用的是 Intel 的 Cloud Hypervisor,它是一个访佛的 Rust 代码库,守旧 PCI 透传)。Nvidia 的生态系统并不挑升为守旧这种微型捏造机处治方法想象。
GPU 让咱们的安全团队独特弥留。GPU硬件的特质是:它波及无数的内存数据传输(以至不是双向的:在常见设立下,GPU 之间是互重叠信的),而且诡计进程不错由最终用户截至,这些操作齐在咱们常常的安全规模除外。
为了裁减风险,咱们作念了几个比拟贵的顺序。咱们将 GPU 部署在专用的管事器硬件上,确保 GPU 和非 GPU 责任负载不会羼杂。因此,Fly Machine 被安排在 GPU Machine 上的惟一原因是它需要为 Nvidia GPU 分派 PCI BDF,而每台机器上可用的数目是有限的。是以这些管事器的哄骗率比普通管事器低,因此在老本效益上远不如咱们的普通管事器。
咱们还进行了一些大型的安全评估,找了两家公司(Atredis 和 Tetrel)来搜检咱们的 GPU 部署。这些评估用度不低,而且花了不少时辰。
虽然安全不是咱们濒临的最大老本问题,但它波折带来了一些隐性老本。
咱们本不错按照 Nvidia 的提倡,快速部署 GPU。Nvidia 提倡用圭臬的 K8s 集群来处治 GPU 任务。如果按照这种格式操作,咱们就能胜利使用 Nvidia 的驱动方法了。
另外,咱们也不错使用传统的捏造化处治方法,Nvidia 保举用 VMware。不外,咱们也不错用 QEMU(另一种捏造化器具),它很机动,但 Fly Machine 的核脸色念便是它们粗略在毫秒级别启动。如果走 Nvidia 的“快捷旅途”,咱们无法提供瞎想的设立者体验。
最终,咱们破钞了数月时辰尝试(并最终未能告捷)让 Nvidia 的主机驱动方法畴昔责任,以便将捏造化的 GPU 映射到 Intel Cloud Hypervisor。有一段时辰,咱们通过十六进制剪辑禁闭源代码驱动方法,让它们误以为咱们的捏造化处治方法是 QEMU。
我不祥情这一切终末是否确实有料想。市集结有一部分咱们从未能实在探索的规模,因为 Nvidia 的驱动守旧让咱们无法灵验地哄骗 GPU。若是莫得这些问题,咱们本不错为设立者提供一个独特低廉的选定,而设立者齐心爱“低廉”,但我无法讲明这些客户是否真实存在。
另一方面,咱们依然喜悦会为 GPU 责任负载提供 Fly Machine 的设立者体验(Fly Machine DX)。除了 PCI/IOMMU 的问题,单纯让通盘硬件 GPU 在 Fly Machine 上运行就也曾是一个挑战。咱们需要粗略启动并装配正确 Nvidia 驱动方法的 Fly Machines;咱们的期间栈假定客户的 OCI 容器险些实足界说了机器的根文献系统。为了竣事这极少,咱们在 flyd 相易器中作念了许多工程化调治。而且险些总计东说念主使用 GPU 时,齐需要高效地获取包含模子权重的大文献,这亦然个困难!
终末,天然,咱们买了许多GPU,花了许多钱。

为什么这个样式不告捷?
最大的问题便是:设立者并不需要 GPU。他们以至不太重视 AI/机器学习(ML)模子,设立者更重视的是大型言语模子(LLM)。系统工程师可能会对如何哄骗 GPU 加载模子、选定哪个 GPU 更好有一些深远视力,但软件设立者并不在乎这些。当一个设立者在作念应用时想要让应用调用 LLM 时,你给他们一个 GPU 也莫得用。
关于这些设立者,AG百家乐是真实的吗预计是市集上大多数东说念主,他们根柢不合计一个新兴的全球云粗略和 OpenAI、Anthropic 这种大公司竞争。它们的 API 也曾够快了,设立者关注的是“每秒处理的 tokens 数目”,而不是毫秒级的蔓延。
(专家应该哀怜咱们一下)
这让咱们很痛心,因为咱们也曾很心爱咱们找到的这个“行业空障碍”。那些在亚马逊上部署应用的设立者,可能会选定其他全球云来得回 GPU 的老本效益。但接着,他们又会濒临普遍的数据和模子权重问题,得花大价钱从 S3 上回传几个 GB 的数据。咱们有应用管事器、GPU 和对象存储齐在团结个交换机下,但推理的蔓延好像根柢不伏击,是以市集根柢不重视这些。
除此除外,如果只接洽那些确实重视 GPU 的系统工程师:他们需要的是普遍的 GPU 诡计才略。像 A100 这么的通盘企业级 GPU 对他们来说仅仅一个融合,他们实在想要的是由 H100 构成的集群。
咱们认为,可能有一部分用户是作念轻量级机器学习的,他们可能会需要一些袖珍GPU。这恰是 Nvidia MIG 的用途,将一个大 GPU 切割成多个小 GPU。但关于实足捏造化的责任负载,MIG 并不锻练,咱们无法使用它。我不祥情这些客户有若干,或者咱们能否在每台管事器上劝诱裕如多的客户。
剩下的便是 L40S 的客户。其实这一类客户还蛮多的!前年咱们下调了 L40S 的价钱,不是因为对 GPU 失望,而是因为它是咱们库存中使用率最高的一个家具。咱们对它很酣畅。但它仅仅某些应用所需的一种诡计资源,不可成为咱们中枢业务的驱能源,它并不是咱们 GPU 投资告捷的秀丽。
说白了,问题便是,绝大多数软件设立者,想要让他们的应用能用 AI,最佳的格式如故通过调用像 Claude、GPT、Replicate 和 RunPod 这些管事的 API。

咱们学到了什么?
从一个独特有用的角度来看,创业公司其实便是一个学习的进程。那咱们此次的学习效力怎样样呢?
当先,当咱们在 2022 年走上这条路时,咱们和许多公司一样,处在 AI/ML 的“火焰期间”。那时,通盘行业对 AI 的关注还莫得聚焦到少数几个基础性的大型言语模子上。咱们底本瞻望会有多种主流的 AI 模子,就像 Elixir Bumblebee 中所提到的那样,专家不错像用 Ruby gems 一样,随时索取各式 AI 责任负载。
但其后 Cursor 的出现转变了这一切,当今专家齐更了了接下来的发展主义。
GPU 的尝试其实是咱们 Fly.io 公经理念的一次测试:咱们想象中枢功能时,是为 1 万个设立者接洽,而不是 5 到 6 个。虽然这条路走得有点慢,但事实讲明,这种理念是对的:GPU 责任负载对第 10001 个设立者来说,是一个小众需求。
另一个看待创业公司格式是:公司在不休作念出各式赌注。咱们在这方面赌了许多,但此次投资给了咱们裕如的资源来陆续作念其他事情。始终不敢下注并不是一种赢家战略。虽然咱们但愿此次能赢,但我认为当初作念这个赌注是对的选定。
这里要记着伏击的极少是——许多创业者忽略了,那便是此次投资波及了无数的金钱购买。显着,一部分老本是无法回收的,但那些莫得产生收入的硬件部分,最终会被计帐掉;就像咱们手里的 IPv4 地址一样,我更惬心作念那些有流畅价值、耐用的金钱背书的赌注。
终末,我不认为岂论咱们怎样作念,GPU Fly Machines 齐会告捷。正因为如斯,我很欢欣的是,咱们莫得为了 GPU 家具而融合其他部分。安全问题拖慢了进程,让咱们多学了几个月,但咱们在不罢休任何圮绝性顺序的前提下,减少了对 GPU 的盼望。而且,朝笑的是,当今别东说念主跑的 GPU 反而让咱们的圮绝性故事变得愈加伏击。相同的事情也发生在咱们 Fly Machine 的设立者体验上。
咱们一运行创办公司是为了作念一个针对旯旮诡计的 JavaScript 运行时,收尾咱们发现,客户并不需要一个新的 JavaScript 运行时,他们仅仅但愿原生代码粗略畴昔运行。于是咱们推出了容器,设立者们很快就继承了。咱们那时错了,认为 JavaScript 旯旮函数会流行,而当今看来,GPU 的事儿咱们也错了。常常,咱们找出正确谜底的格式,便是先犯许多错。

上一篇:AG真人旗舰厅百家乐 015期大飞大乐透权衡奖号:后区五码保举
下一篇:AG真人旗舰厅百家乐 南京高淳砖墙镇: 东说念主居环境质飞跃 红星村貌焕新颜