5分钟搭建强大又好用的深度学习环境

时间：2021-03-05 14:41:06 来源：今日头条作者：deephub

为深度学习项目建立一个良好的环境不是一件容易的任务。因为需要处理的事情太多了:库必须匹配特定的版本，整个环境需要可以复制到其他机器上，所有东西都需要能够机器中的所有驱动程序通信。这意味着你需要为你的NVIDIA GPU安装特定的驱动程序，并且CUDA库必须与你的驱动程序和你想要使用的框架兼容。

随着容器彻底改变了软件开发的世界，现在它们也可以帮助数据科学家构建更健壮的环境。

有一件事是肯定的:数据科学可以从软件开发领域学到一些东西。

NVIDIA NGC是一个软件中心，提供gpu优化框架、预训练模型和工具包来培训和部署生产中的AI。它是一个容器注册中心，包含训练模型所需的所有工具:无论您使用的是caffee2、Pytorch、Tensorflow、Keras、Julia还是其他工具都没有关系。

在NGC目录中有大量可生产的容器，你只需要选择你自己想用的。

Nvidia NGC不仅是一个容器注册中心，它还内置了许多功能，可以帮助您的组织将模型带到生产环境中。

从头开始

让我们从一台配备了GPU的linux机器开始(GPU不是强制性的，但如果你想训练模型，强烈建议使用GPU)。我在Ubuntu 20.04 LTS和18.04 LTS上测试了这个功能，但是可以很容易地适应其他Linux发行版。

我们需要做什么?

步骤很简单，我们只需要安装NVIDIA驱动程序和Docker。然后我们下载我们想要的docker镜像并开始工作!

第一步:在Ubuntu 20.04上安装NVIDIA驱动程序

注意:如果你使用的是另一个Ubuntu版本，请确保你修改了相应的脚本。此外，如果启用了Secure Boot，这种方法也不起作用。

sudo apt install linux-headers-$(uname -r)
curl -O https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin
sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600
sudo apt-key adv - fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/7fa2af80.pub
sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /"
sudo apt update
sudo apt -y install cuda

使用nvidia-smi命令验证安装。你应该看到这样的东西。

第二步:在Ubuntu 20.04中安装Docker

#!/bin/sh
#Set up the repository
sudo apt-get update
sudo apt-get install -y 
apt-transport-https 
ca-certificates 
curl 
gnupg-agent 
software-properties-common
# Add Docker’s official GPG key:
curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo apt-key add -
# set up the stable repository
sudo add-apt-repository 
"deb [arch=amd64] https://download.docker.com/linux/ubuntu 
$(lsb_release -cs) 
stable"
sudo apt-get update
sudo apt-get install -y docker-ce docker-ce-cli containerd.io
# Substitute ubuntu with your username
sudo usermod -aG docker ubuntu

注意:你需要注销和登录，以在没有sudo权限的情况下使用docker命令。

第三步:让Docker与NVIDIA driver通信

curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | 
sudo apt-key add -
curl -s -L https://nvidia.github.io/nvidia-docker/ubuntu16.04/amd64/nvidia-docker.list | 
sudo tee /etc/apt/sources.list.d/nvidia-docker.list
sudo apt update
sudo apt-get install -y docker nvidia-container-toolkit

我们现在想测试Docker是否能够与NVIDIA驱动程序通信。要做到这一点，只需运行以下命令，您应该会看到与步骤1类似的结果。

sudo docker run --rm --gpus all nvidia/cuda:11.0-base nvidia-smi

注意:我在不同的云主机提供商上试验过，根据操作系统、虚拟机类型和gpu，此时可能需要重启。因此，如果出现错误，请尝试sudo reboot并再次执行上述命令。正常的话应该看到nvidia-smi结果。

第四步:让我们获取镜像并运行它!

#Download NGC Tensorflow 2 Image
docker pull nvcr.io/nvidia/tensorflow:20.12-tf2-py3
# create local_dir folder mounted at /container_dir in the container
mkdir /home/ubuntu/local_dir
docker run --gpus all --shm-size=1g --ulimit memlock=-1 --ulimit stack=67108864 -it --rm -v /home/ubuntu/local_dir:/container_dir nvcr.io/nvidia/tensorflow:20.10-tf2-py3

注意:flags - shm-size=1g - ulimit memlock=-1 - ulimit stack=67108864是必要的，为了避免操作系统限制资源分配给Docker容器。

我们现在进入了容器，让我们看看是否一切正常。

正如你从图片中看到的，GPU是可用的，tensorflow可以使用它。

最后:访问docker环境

当您断开与机器的连接时，您将注意到您已经不在容器内了。

要再次连接，你需要使用docker ps找到正在运行的容器的container_ id，然后:

docker exec -it <containerid> /bin/bash</containerid>

最后总结

在本教程中，我们发现使用NVIDIA NGC的图像创建一个具有所有库和工具的生产就绪环境是多么容易。

我们看到了配置Docker使其与NVIDIA驱动程序和所需框架通信是多么容易。

我们在5分钟内完成了所有这些工作

作者：Roberto Di Bella

deeohub翻译组

Tags：深度学习环境点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

5分钟搭建强大又好用的深度学习环境

为深度学习项目建立一个良好的环境不是一件容易的任务。因为需要处理的事情太多了:库必须匹配特定的版本，整个环境需要可以复制到其他机器上，所有东西都需要能够机器中的所有...【详细内容】

2021-03-05　　Tags: 深度学习环境点击:(96)　　评论:(0)　　加入收藏

▌简易百科推荐

可解释的AI (XAI)：如何使用LIME 和 SHAP更好地解释模型的预测

作为数据科学家或机器学习从业者，将可解释性集成到机器学习模型中可以帮助决策者和其他利益相关者有更多的可见性并可以让他们理解模型输出决策的解释。在本文中，我将介绍两个...【详细内容】

2021-12-17　　deephub　　　　Tags:AI 　点击:(15)　　评论:(0)　　加入收藏

AI系统中（机器学习算法）导致偏差的原因总结

基于算法的业务或者说AI的应用在这几年发展得很快。但是，在实际应用的场景中，我们经常会遇到一些非常奇怪的偏差现象。例如，Facebook将黑人标记为灵长类动物、城市图像识别系统...【详细内容】

2021-11-08　　数据学习DataLearner　　　　Tags:机器学习　点击:(32)　　评论:(0)　　加入收藏

人工智能会超过人类吗？顶尖科学家：人工智能在常识判断方面具有局限

11月2日召开的世界顶尖科学家数字未来论坛上，2013年诺贝尔化学奖得主迈克尔·莱维特、2014年诺贝尔生理学或医学奖得主爱德华·莫索尔、2007年图灵奖得主约瑟夫·斯发斯基、1986年图灵奖得主约翰·霍普克罗夫特、2002...【详细内容】

2021-11-03　　张淑贤　　证券时报　　Tags:人工智能　点击:(39)　　评论:(0)　　加入收藏

火爆业界的边缘计算，到底是什么？

鉴于物联网设备广泛部署、5G快速无线技术闪亮登场，把计算、存储和分析放在靠近数据生成的地方来处理，让边缘计算有了用武之地。边缘计算正在改变全球数百万个设备处理和传输...【详细内容】

2021-10-26　　　　计算机世界　　Tags:边缘计算　点击:(45)　　评论:(0)　　加入收藏

这725个机器学习术语表，太全了

这是几位机器学习权威专家汇总的725个机器学习术语表，非常全面了，值得收藏！英文术语中文翻译 0-1 Loss Function 0-1损失函数 Accept-Reject Samplin...【详细内容】

2021-10-21　　Python部落　　　　Tags:机器学习　点击:(43)　　评论:(0)　　加入收藏

程序员10 个入门级的机器学习开源项目

要开始为开源项目做贡献，有一些先决条件：1. 学习一门编程语言：由于在开源贡献中你需要编写代码才能参与开发，你需要学习任意一门编程语言。根据项目的需要，在后期学习另一种语言...【详细内容】

2021-10-20　　TSINGSEE青犀视频　　　　Tags:机器学习　点击:(37)　　评论:(0)　　加入收藏

Logistic Regression：最基础的神经网络

SimpleAI.人工智能、机器学习、深度学习还是遥不可及？来这里看看吧~ 从基本的概念、原理、公式，到用生动形象的例子去理解，到动手做实验去感知，到著名案例的学习，到用所学来实现...【详细内容】

2021-10-19　　憨昊昊　　　　Tags:神经网络　点击:(47)　　评论:(0)　　加入收藏

直击痛点 NLP技术的价值和落地｜超级观点

语言是人类思维的基础，当计算机具备了处理自然语言的能力，才具有真正智能的想象。自然语言处理（Natural Language Processing, NLP）作为人工智能（Artificial Intelligence, AI）的核心技术之一，是用计算机来处理、理解以及运...【详细内容】

2021-10-11　　　　36氪　　Tags:NLP 　点击:(48)　　评论:(0)　　加入收藏

边缘计算是个啥？为什么说发展5G离不开它？

边缘计算是什么？近年来，物联网设备数量呈线性增长趋势。根据艾瑞测算， 2020年，中国物联网设备的数量达74亿，预计2025年突破150亿个。同时，设备本身也变得越来越智能化，AI与互联网在...【详细内容】

2021-09-22　　汉智兴科技　　　　Tags: 　点击:(54)　　评论:(0)　　加入收藏

学了这些基础算法，人工智能就算入门了

说起人工智能，大家总把它和科幻电影中的机器人联系起来，而实际上这些科幻场景与现如今的人工智能没什么太大关系。人工智能确实跟人类大脑很相似，但它们的显著差异在于人工智能...【详细内容】

2021-09-17　　异步社区　　　　Tags:人工智能　点击:(57)　　评论:(0)　　加入收藏

推荐资讯

远程软件发展迅猛，ToDe	倒计时！企业QQ即将下架
极简Windows11与iPhon	iPhone信号问题，花10元
惊人数据：App Store中4	个人所得税递延纳税报
非常实用的 Python 库	等离子电视技术先进，为

无相关信息