阿里云
发表主题 回复主题
  • 804阅读
  • 0回复

什么是高性能计算的北京HPC使用容器服务

级别: 论坛粉丝
发帖
1400
云币
2804


操作流程

  1. 登录HPC容器管理界面,如果页面提示您还未开通容器服务,请单击开通。

  2. 单击左侧导航的[backcolor=transparent]集群页,选中右上角的[backcolor=transparent]创建集群旁边的小三角,单击[backcolor=transparent]创建本地集群,跳转到下面的页面:

  3. 设置集群的名称和网络类型,单击[backcolor=transparent]创建集群
    [backcolor=transparent]集群名称可以设置一个名称用于标示集群。名称要求在同一个用户和同一个region下唯一。目前使用的region是[backcolor=transparent]cn-beijing-hpc。
    [backcolor=transparent]地域选项请一定选择HPC地域。如果您的界面上没有HPC地域,请提工单将您的阿里账号告诉我们,为您开通相关权限。
    [backcolor=transparent]网络类型请一定选择[backcolor=transparent]Overlay网络。[backcolor=transparent]并且请一定注意不要使用192.168.0.0/16,建议使用172.80.0.0/16。
    [backcolor=transparent]是否新增节点默认不创建节点。

  4. 添加节点

4.1 回到[backcolor=transparent]集群页面,在已经创建的集群右侧单击[backcolor=transparent]更多下拉框,选择[backcolor=transparent]添加已有实例

4.2 查看需要在HPC机器上执行的脚本,特别注意其中的长串

4.3 登录到HPC机器
(1) 清理已有的nvidia docker和docker。[backcolor=transparent]如果这是您新购买的北京HPC,请略过此步。如果这不是您第一次注册HPC容器集群,未避免兼容问题请在机器上运行以下脚本:
  1. [backcolor=transparent]docker volume rm $[backcolor=transparent]([backcolor=transparent]docker volume ls [backcolor=transparent]-[backcolor=transparent]q[backcolor=transparent])
  2. [backcolor=transparent]docker rm [backcolor=transparent]-[backcolor=transparent]f $[backcolor=transparent]([backcolor=transparent]sudo docker ps [backcolor=transparent]-[backcolor=transparent]aq[backcolor=transparent])
  3. [backcolor=transparent]service nvidia[backcolor=transparent]-[backcolor=transparent]docker stop
  4. [backcolor=transparent]service docker stop
  5. [backcolor=transparent]rpm [backcolor=transparent]-[backcolor=transparent]qa[backcolor=transparent]|[backcolor=transparent]grep nvidia[backcolor=transparent]-[backcolor=transparent]docker[backcolor=transparent]|[backcolor=transparent]xargs  yum remove [backcolor=transparent]-[backcolor=transparent]y
  6. [backcolor=transparent]rpm [backcolor=transparent]-[backcolor=transparent]qa[backcolor=transparent]|[backcolor=transparent]grep docker[backcolor=transparent]|[backcolor=transparent]xargs  yum remove [backcolor=transparent]-[backcolor=transparent]y
  7. [backcolor=transparent]rm [backcolor=transparent]-[backcolor=transparent]rf [backcolor=transparent]/[backcolor=transparent]etc[backcolor=transparent]/[backcolor=transparent]docker
  8. [backcolor=transparent]rm [backcolor=transparent]-[backcolor=transparent]rf [backcolor=transparent]/[backcolor=transparent]disk2[backcolor=transparent]/[backcolor=transparent]docker
  9. [backcolor=transparent]ifconfig docker0 down
  10. [backcolor=transparent]brctl delbr docker0
  11. [backcolor=transparent]ifconfig docker_gwbridge down
  12. [backcolor=transparent]brctl delbr docker_gwbridge

(2) 在HPC机器中下载并运行注册脚本。注意c46e89653c69d0fcedc156d19b6e2156f5668001 是步骤[backcolor=transparent]3.2中的长串,请根据您在[backcolor=transparent]3.2步中的实际情况设置。 --advertise-interface 是与外界通信的网络接口,北京HPC一律是bond0.700
  1. [backcolor=transparent]curl [backcolor=transparent]-[backcolor=transparent]Ls[backcolor=transparent] http[backcolor=transparent]:[backcolor=transparent]//aliyuncontainerservice.oss-cn-hangzhou-internal.aliyuncs.com/hpc/1.12.3/attachNodeScript | sudo -H bash -s c46e89653c69d0fcedc156d19b6e2156f5668001 --advertise-interface bond0.700 --override-kernel-check

5. 访问https://cs.console.aliyun.com/#/node查看节点列表

6. 现在您的机器上已经成功安装并运行了docker和nvidia-docker服务,可以开始利用容器服务部署应用了。
发表主题 回复主题
« 返回列表上一主题下一主题

限100 字节
如果您提交过一次失败了,可以用”恢复数据”来恢复帖子内容
 
验证问题: ECS是阿里云提供的什么服务? 正确答案:云服务器
上一个 下一个