迁移到 Amazon SageMaker:Karini AI 降低成本 23 机器学习博客
Karini AI迁移至Amazon SageMaker:降低了23的成本
关键要点
Karini AI通过将向量嵌入模型从Kubernetes迁移到Amazon SageMaker,改善了并发性,提高了30的效率。迁移后,基础设施成本减少超过23。Karini AI提供无代码解决方案,简化生成AI应用程序的创建过程,实现更高效的数据处理。这篇文章由Deepali Rajale和Karini AI的Ravindra Gupta共同撰写。
Karini AI 是一个领先的生成式AI基础平台,依托于AWS,帮助客户快速构建安全、高质量的生成式AI应用。生成式AI不仅是一项技术,它还是改变企业使用科技方式的变革工具。根据企业的不同采纳阶段,采用生成式AI对企业来说是一项重要的挑战。根据Everest Research,超过50的项目难以超越试点阶段,主要原因是缺乏标准化的操作实践。
Karini AI 提供一个强大且用户友好的生成AI基础平台,帮助企业构建、管理和部署生成AI应用。它支持初学者和专家开发和部署各种用途的生成AI应用,超越了简单的聊天机器人,包括有代理性、多个代理性、生成式BI和批处理工作流。该无代码平台非常适合快速实验、构建概念验证PoC并迅速过渡到生产,内置安全保护和可观察性来帮助故障排查。其平台还包括离线和在线质量评估框架,以在实验过程中评估质量,并在部署后持续监控应用。Karini AI的直观提示平台让用户能够编写提示、与不同模型进行比较、进行提示管理和调优,支持对更简单、有代理性的和多个代理性的提示进行迭代测试。
以下图示展示了Karini AI如何提供一个全面的生成式AI基础平台,涵盖整个应用程序生命周期。该平台提供统一的开发、部署和管理框架,提升了市场投放速度和资源利用率。
在本文中,我们分享Karini AI将向量嵌入模型从Kubernetes迁移到Amazon SageMaker端点的过程,如何在提高并发性的同时节省超过23的基础设施成本。
Karini AI的数据获取管道以创建向量嵌入
为大语言模型LLM注入新数据是构建实用生成AI应用的关键。此时,检索增强生成RAG显得尤为重要。RAG通过整合外部数据,扩展了LLM的能力,使其在知识密集型任务中实现最先进的表现。Karini AI为生成AI应用提供无代码解决方案,这些解决方案包括两个主要组件:用于构建知识库的数据获取管道以及知识检索和概括系统。两者共同简化了开发流程,使得强大的AI应用能更轻松地创建。
数据获取管道
从不同来源获取数据对于实施检索增强生成RAG至关重要。Karini AI的数据获取管道支持连接多个数据源,包括Amazon S3、Amazon Redshift、Amazon关系数据库服务RDS、网站以及Confluence,能够处理结构化和非结构化数据。源数据经过预处理、分块和转换为向量嵌入之后,存储在向量数据库中以供检索。Karini AI的平台提供多种嵌入模型的灵活选择,简化了高级AI应用的向量嵌入创建过程。
以下是Karini AI无代码数据获取管道的截图。
Karini AI的模型中心通过与主流基础模型提供商如Amazon Bedrock以及自管理服务平台的集成,使模型的添加流程更加简化。
基础设施挑战
随着客户探索复杂用例和数据集变得越来越庞大,Karini AI高效扩展数据获取过程,以便提高使用先进嵌入模型创建向量嵌入的并发性,比如MTEB排行榜中列出的一些模型,这些模型在快速演变,并未在托管平台上可获得。
在迁移到Amazon SageMaker之前,我们的模型部署在自管理的KubernetesK8sEC2实例上。Kubernetes提供了相当大的灵活性,能够快速部署来自HuggingFace的模型,但随之而来的是我们的工程团队不得不管理许多与扩展和部署相关的方面。我们面临以下挑战,必须解决以提高效率和性能。
跟上SOTA最先进技术模型的进展:我们需要为每种模型类型如分类器、嵌入和自动补全管理不同的部署清单,这样做耗时且容易出错。同时,我们还需要维护决定不同模型类型内存分配逻辑。动态并发管理困难:在Kubernetes上使用模型的一个重大挑战是实现最高的动态并发级别。我们的目标是最大化端点性能,以达到目标每秒交易数TPS,同时满足严格的延迟要求。成本高:虽然KubernetesK8s提供了强大的功能,但由于数据获取管道的动态特性,导致实例利用率低,成本上升。我们在寻找推理平台的过程中,发现了Amazon SageMaker,这是一种高效管理我们的模型以实现更高并发、满足客户服务水平协议SLA并在不需要时自动缩减服务的解决方案。SageMaker的性能可靠性使我们对其能力充满信心。
Amazon SageMaker用于模型服务
选择Amazon SageMaker是Karini AI的一项战略决定。它在降低成本的同时满足了对更高并发性的需求,提供了一种性价比高的解决方案。SageMaker能够扩展并最大化并发值,同时确保亚秒级的延迟,适用于多种生成AI用例,使其成为我们平台的一项长期投资。
Amazon SageMaker是一个完全托管的服务,使开发者和数据科学家能够快速构建、训练和部署机器学习ML模型。借助SageMaker,用户可以在托管端点上部署ML模型并获得实时推理结果。用户可以轻松查看在Amazon CloudWatch上的端点性能指标,基于流量自动扩展端点,并在不影响可用性的情况下更新生产中的模型。

Karini AI的数据获取管道架构与Amazon SageMaker模型端点的概况如下。
使用SageMaker托管的优势
Amazon SageMaker为我们的生成AI数据获取管道提供了诸多直接和间接的好处。
技术债务缓解:作为托管服务的Amazon SageMaker,使我们的ML工程师可以减少推理的负担,从而更专注于核心平台功能,这是使用SageMaker的一项重大优势,令人放心。满足客户SLA:知识库的创建是一项动态任务,可能在向量嵌入生成期间需要更高的并发,在查询时则负荷极小。根据客户的SLA和数据量,我们可以选择批量推理、实时托管与自动扩展或无服务器托管。Amazon SageMaker还能提供适合嵌入模型的实例类型推荐。降低基础设施成本:SageMaker是一项按需付费的服务,允许用户在需要时创建批量或实时端点,并在工作完成后进行销毁。此方法使我们的基础设施成本在KubernetesK8s平台基础上减少了超过23。SageMaker Jumpstart:SageMaker Jumpstart提供对SOTA最先进技术模型和优化推理容器的访问,使其成为创建可供客户使用的新模型的理想选择。与Amazon Bedrock兼容:Karini AI与Amazon Bedrock集成以进行LLM大型语言模型推理。自定义模型导入功能使我们能够重用在SageMaker模型托管中使用的模型权重,以保持共同代码库,并根据负载在Bedrock和SageMaker之间实现服务的切换。结论
Karini AI通过迁移至Amazon SageMaker达到了显著的性能提升,并降低了模型托管成本。我们能够将自定义的第三方模型部署到SageMaker,并快速将其提供给Karini的模型中心以用于数据获取管道。我们也可以根据模型大小及预期TPS,优化模型托管的基础设施配置。使用Amazon SageMaker进行模型推理,使Karini AI能够高效处理日益复杂的数据问题,并满足并发需求,同时优化成本。此外,Amazon SageMaker还实现了新的模型的轻松集成和替换,确保我们的客户能够持续利用最新的AI技术进步,无需影响性能或承担不必要的附加成本。
Amazon SageMaker和Kariniai提供了一个强大的平台,用于大规模构建、训练和部署机器学习模型。借助这些工具,您可以:
加速开发:借助预构建的算法和框架,更快速地构建和训练模型。提升精度:利用先进的算法和技术,提高模型性能。轻松扩展:轻松部署模型进行生产,并处理不断增加的工作负载。降低成本:优化资源利用,减少运营开支。不要错过这个获得竞争优势的机会。
关于作者
Deepali Rajale 是Karini AI的创始人,致力于让企业广泛应用生成AI。她喜欢撰写有关生成AI的博客,并指导客户优化生成AI实践。在空闲时间,她喜欢旅行,探索新体验,并关注最新的科技趋势。您可以在LinkedIn上找到她。
Ravindra Gupta 是SageMaker的全球GTM负责人,热衷于帮助客户采纳SageMaker以实现机器学习和生成AI工作负载。Ravi喜欢学习新技术,并乐于指导初创公司改进其机器学习实践。您可以在LinkedIn上找到他。
免费 加速器加载评论