您当前的位置是:  首页 > 资讯 > 文章精选 >
 首页 > 资讯 > 文章精选 >

AIStation首次海外深度评测全记录

2020-07-24 13:56:10   作者:   来源:CTI论坛   评论:0  点击:


  近日,海外权威产品测评机构STH评测体验了浪潮企业级人工智能开发平台AIStation,并给予高度评价。这是AIStation首次在海外市场进行深度产品体验。
  体验文章从管理员和用户两个维度全面展示了AIStation。管理员维度动手体验了管理集群、创建用户、分配资源、资源监控等;用户维度动手体验了创建训练任务,启动并完成任务的完整过程。此外,STH还刊载了记者就AIStation市场策略对浪潮AI&HPC总经理刘军的访谈。
  STH认为“做好AI集群运营可能并不像发现一种解决深度学习问题的新方法那样振奋人心,但对于在组织内扩展共享资源至关重要。”
  附STH评测体验AIStation全记录
  在深入了解【用户系统】前,我们先对【管理员系统】进行了体验。基于Kubernetes容器引擎的AIStation,与许多传统的GPU/HPC/AI调度系统比较,不管是系统本身还是界面设计,都更具领先性。
  01. 管理员视角
  后台的管理:AIStation在后台开始运行后,大部分日常管理工作都可以使用脚本或通过Web GUI完成。管理员可以深入查看各个节点的负载、硬件配置,甚至可以追踪从用户到容器、硬件,再到单个GPU的整个流程。
  浪潮AIStation管理/GPU监控&节点监控'''
 
  浪潮AIStation管理/存储监控
  • 资源组的创建:尽管我们的测试集群只有几个节点,但我们听说AIStation已经部署了数百个节点和上千个节点的集群。随着节点数量的增加,创建资源组变得更加重要。AIStation可以创建多个资源组,将其指定用于开发、训练或通用,也可以为该组设置一些更高级别的管理和预留权限。
  浪潮AIStation管理员/新建资源组
  • 用户及用户组的创建:除了创建资源组之外,创建用户和用户组可能更重要。AIStation可以创建用户或与现有的用户目录工具集成,然后为用户授予访问不同资源、存储配额、GPU配额等的权限。
  比如,一家公司可能不会让一个实习生100%使用整个集群或访问敏感的训练数据/模型,而会把优先权给到深度学习专家组成的内部咨询小组。AIStation的主要价值主张是通过单个系统进行全面管理。
  浪潮AIStation/Admin系统管理/用户管理
  • 管理员的其他权限:管理员还可以根据权限访问整个集群。例如,遇到作业运行缓慢的问题,管理员可以使用监控工具查找他们的作业以及有问题的容器,甚至可以直接进入硬件查看是否有潜在的硬件问题。
  浪潮AIStation 开发平台/容器监控
  AIStation还具有相当全面的可视化界面,用于监控集群,界面上可以看到CPU、GPU和内存的利用率等信息。在集群生命周期管理方面,这类数据可帮助管理员查看资源配置情况以及系统容量。
  例如,如果集群以50%的CPU、60%的GPU、95%的内存运行,这就充分说明下一代节点需要更多的内存容量。
  浪潮AIStation管理员/报告管理/资源数据
  管理员用户还可以查看已完成的任务,以查看用户先前运行的内容,包括作业是否成功。在某些情况下,人们会在公司GPU集群上挖掘加密货币。此类功能可根据已运行的内容进行审核跟踪,这项功能非常重要。
  浪潮AIStation管理员/训练管理/已完成任务
  除了上述功能之外,另一个重要功能是管理用户在系统中拥有的资源。接下来,我们会从用户的角度进行详细阐述。
  02. 用户视角
  登录AIStation时可以看到这个界面。这里面许多使用限制是通过管理板块中显示的用户、组和资源组功能定义的。每个用户都可以访问到一组资源。
  浪潮AIStation用户界面
  镜像查看:开发人员如果要开始训练任务,可以查看可训练的镜像。这些镜像很重要,因为在系统中创建任务时,它们就是可能正在使用的镜像。它可以是来自NVIDIA GPU Cloud的镜像或更加标准的镜像。AIStation还具有组镜像甚至用户镜像的功能,让用户可以更轻松地选择容器镜像。
  用户可以看到个人、组和公共镜像。管理员可以将镜像定义为个人镜像或公共镜像,将敏感镜像的查看权限仅开放给特定组或员工,这点也非常重要。
  浪潮AIStation用户/镜像管理
  框架选择与任务设置:浪潮AIStation支持多种框架,用户可以使用tensorflow、pytorch、paddlepaddle或其他框架。
  注:开发用户通过界面化的方式选择所需要的镜像和资源配置,系统秒级完成资源配置,快速创建开发环境。平台内置juputer和webshll开发工具,保证用户快速进入模型开发。
  • 数据管理:数据管理在AI集群中极为重要,AIStation能够定义和存储数据集。
  从用户的角度来看,他们可以查看哪些数据集可供使用。用户能够将容器图像、节点/物理资源和训练数据相关联。而管理员可以对这些数据集设置权限。这一点很重要,因为有些数据集只有指定用户才能查阅、使用和下载。
  在AIStation中还可以加载Jupyter笔记本,直接编辑python文件,并且可以将笔记本保存在集群的存储后台,并轻松与其他用户共享。
  浪潮AIStation用户平台/开发平台/Jupyter
  浪潮AIStation/训练任务设置
  注:用户可以图形化的方式提交分布式训练任务,快速在K8S系统中展开分布式训练,并通过优化调度策略保证分布式训练资源快速准确分配。
  可视化操作:启动任务后,AIStation平台将集成许多可视化工具。例如,您可以启动Tensorboard、Visdom或Netscope等工具,从下拉菜单中显示可视化效果;用户可以直接从Web GUI进入容器的终端。
  训练作业可能要花数小时或数天,用户可随时查看当前作业状态进度、检查结果以及待处理的作业及其历史。
  浪潮AIStation用户开发平台可视化Tensorboard
  03. 对话浪潮刘军
  AIStation上市战略方面,我们采访了浪潮AI&HPC总经理刘军。
  STH: 浪潮如何规划AIStation的上市?
  刘军:AIStation有直接销售和渠道销售两种销售方式,我们在全球有数十个渠道合作伙伴出售AIStation。
  STH: AIStation可以集成其他服务器供应商的集群节点吗?
  刘军:是的,AIStation能够集成其他供应商的集群节点。
  STH: AIStation的销售是否针对特定行业?
  刘军:AIStation发布于2019年4月,目前已已实际应用于金融、教育、互联网和智慧城市等行业。
  STH: 只面向大型组织、服务提供商吗?初创企业等较小的组织是销售目标吗?
  刘军:AIStation专为深度学习开发领域而设计,适用于金融、互联网、通信、交通、医疗和教育等行业的大小型企业。
  STH: 许可模式是怎样的?
  刘军:按GPU服务器节点出售。
  STH: 升级许可证需要购买新密钥,还是客户凭借现有密钥从浪潮注册服务器上获得新权限?(这里提醒读者,Web GUI上有一个许可证密钥页面,上文未展示)
  刘军:用户可享受三年内AIStation的免费升级服务,然后需要购买新密钥进行升级。
  STH: 针对该解决方案,浪潮未来会提供其他新的服务吗?
  刘军:未来AIStation将支持更多的AI加速器,并实现资源管理、调度、监控、优化等方面的异构加速。我们将建立一个更全面的AI开发生态系统,为行业主流AI开发工具、开发框架和深度学习模型提供一个集成的开发平台。
  最后我想强调一下在此展示AIStation的动手视图和上市策略的原因。AIStation发布第一年即获得不俗的软件销售额。要是看到他们所投资公司的AI管理软件平台首年就获得如此成绩,投资者一定会非常兴奋。重点是,尽管浪潮将其作为产品发布,但实际上它已经有很多付费客户。这些客户已经在使用此解决方案来管理其AI集群和开发团队。
  结合当前的功能,再想想异构加速器的概念,就能马上明白该解决方案的前景。随着组织中集群的增多,调度和管理集群资源将成为越来越严峻的挑战,浪潮AIStation的作用也将进一步凸显。
  扫码获取AIStation技术白皮书
  阅读原文获取完整评测内容
  *注:浪潮今年重磅发布了元脑生态计划,在元脑生态中浪潮将与合作伙伴共享三大核心平台能力,包括AI计算平台、AI资源平台和AI算法工具平台。其中AIStation作为AI资源平台具备重要的作用,构建开放的AI创新生态,无缝对接行业ISV,赋能生态伙伴,兼容各AI应用和场景。目前AIStation已经聚合了包含百度、第四范式、英特尔、英伟达、VMware等数十家家企业的AI框架、模型和工具组件,已应用到互联网、通信、金融、交通、制造、医疗等场景中,成为生态丰富的人工智能资源平台。
【免责声明】本文仅代表作者本人观点,与CTI论坛无关。CTI论坛对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

专题

CTI论坛会员企业