制作U盘启动盘
-
首先需要在官网(https://ubuntu.com)下载ubuntu镜像并制作U盘启动盘,本文在写时ubuntu系统已更新至20.04LTS版本,但为了保证服务器稳定性,建议下载18.04LTS版或16.04LTS版。
-
制作U盘启动盘
我所使用的软件是rufus,制作U盘启动盘的软件很多,可自行选择,这里以rufus为例
rufus界面如下:
-
设备
一栏选择将要被制成启动盘的U盘 -
引导类型选择
一栏选择上一步下载的Ubuntu镜像 -
其余选项均默认,点击
开始
等待即可
-
使用U盘启动盘给服务器装系统
将制作好的U盘启动盘插入主板的USB-A口,启动主板并进入BIOS,不同的主板进入BIOS的方法不同,本文以实验室的大服务器,华硕主板为例。
该主板在启动时会提示如何进入BIOS,如下图所示,按del
键即可
进入BIOS后通过方向键选择至boot
界面,修改硬盘启动优先级,将插入的U盘设置为最高优先级,这样主板在下次启动时才会从U盘启动,修改好之后根据提示保存并重启
重启后会进入grub引导界面,选择安装Ubuntu,即Install Ubuntu
这样我们就进入了ubuntu安装界面
语言建议选择English
键盘布局建议选择English
勾选Normal installation
和Instal third party software...
勾选something else
,进入手动分区界面
实验室的硬件配置一般都是一块SSD,一块机械硬盘,因此在手动分区界面我们可以看到两块设备分别是/dev/sda
和/dev/sdb
选中SSD所对应的设备,假设是/dev/sda
且该SSD现在未分区,点击New Partition Table
,这样就会出现free space
的分区space空间,当然如果SSD之前有过使用的话,可能其上已经有建好的分区了,此时可以选择备份删除或者在剩下的空闲空间进行安装
选中free space
,点击+
,出现下图所示窗口
实验室的服务器并不会被用作Web服务,大多都是用于计算,所以分区方案不需要太复杂,这里推荐一组分区方案
parttion | Size | Type | Use | Mount point |
---|---|---|---|---|
/ | 100G | Primary | Ext4 | / |
/boot | 1G | Logical | Ext4 | /boot |
swap | 16G | Logical | Swap area | |
/home | 剩下的空间 | Logical | Ext4 | /home |
为了安全起见,/home
不一定得挂载在SSD上,更好的选择是挂载在机械硬盘下并适当扩大/
的分区大小,这样在重装系统时,只需要将SSD格式化即可,机械硬盘中的珍贵数据仍然被保留了下来
另外不建议将整块机械硬盘全部挂载为/home
,最好分成两个分区然后只挂载其中一个,这样一个分区坏了还可以用另一个应急做备用
分区策略设置好后,点击Device for boot loader installation
并选择SSD,这样系统便是从SSD启动的
最后点击install now
,等待完成安装即可
除了以上步骤外,还会有设置用户名和密码的步骤,更据自己的需求设置就好
系统装好后的配置
新系统装好后会直接进入系统,这时需要输入用户名和密码,使用之前设置好的即可
进入系统的第一件事,由于校园网的限制,所以我们需要配置拨号上网,这里配置过程以ubuntu16.04为例
配置拨号上网
按照一以上步骤配置好后,点击save
保存即可
然后回到桌面在右上角选择刚才创建的拨号上网选项即可
拨号上网就配置好了
下载ssh用于远程控制
打开terminal
疯狂键入以下命令
sudo apt-get update
sudo apt-get install openssh-server
sudo/etc/init.d/ssh start
然后查看ip
ifconfig
这样你就可以使用其他设备远程链接服务器了,当然前提是你的另一台设备上安装了ssh客户端(服务器上安装的是ssh服务端)
安装显卡驱动
按照上图进行即可,在additional drivers
里选择一个需要的驱动版本即可,如果没有自己想要的驱动版本,可以在terminal中使用sudo add-apt-repository ppa:graphics-drivers/ppa && sudo apt update
命令进行更新
如果在apply changes
之后使用nvidia-smi
提示显卡驱动不匹配,重启一下就好。。。
安装cuda
在cuda官方网站https://developer.nvidia.com/cuda-downloads选择版本系统等,然后在命令行使用官方给出的命令
下载时可能会因为网络不好出现failed to ssl_handshake: closed
的错误,这样的话就只能等网络好的时候再试了555
anyway,下载好之后,使用sudo sh cuda_11.1.1_455.32.00_linux.run
运行
键入accept
因为已经安装了显卡驱动,所以这一步先将驱动选项取消,然后安装
安装好后添加环境变量
sudo vim ~/.bashrc
并添加以下内容
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-11.1/lib64
export PATH=$PATH:/usr/local/cuda-11.1/bin
export CUDA_HOME=$CUDA_HOME:/usr/local/cuda-11.1
使用source ~/.bashrc
激活环境
随后使用nvcc -V
,若出现下图则安装成功
安装cudnn
官网https://developer.nvidia.com/rdp/cudnn-download注册并回答问卷,之后便可型选择相应版本的cudnn下载
此处选择cuDNN Library for Linux[x86_64]
下载好后在命令行使用tar xvf cudnn-11.1-linux-x64-v8.0.4.30.tgz
进行解压
解压好后在命令行依次执行以下命令
sudo cp cuda/include/cudnn.h /usr/local/cuda/include/
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64/
sudo chmod a+r /usr/local/cuda/include/cudnn.h
sudo chmod a+r /usr/local/cuda/lib64/libcudnn*
这样cudnn就好了
安装anaconda
官网https://www.anaconda.com/products/individual先下载Anaconda3-2020.07-Linux-x86_64.sh
然后在命令行中sudo sh Anaconda3-2020.07-Linux-x86_64.sh
安装过程中注意有一步问你yes or no,要选择yes
安装完之后,使用source ~/.bashrc
激活环境
安装pytorch
先进入你想要安装的环境,建议在安装之前在命令行使用以下命令
sudo chown lab532 .conda
sudo chown lab532 anaconda3
这是有一次在安装时发现,anaconda的权限是在root下的,不在当前用户下,所以要改变其所属
然后去pytorch官网https://pytorch.org/查下载命令
这里使用conda install pytorch torchvision torchaudio cudatoolkit=11.0 -c pytorch
然后等待就行了
参考
https://www.jianshu.com/p/158ae8fcdb4a
https://www.jianshu.com/p/158ae8fcdb4a
记录一些问题
出现The program 'nvcc' is currently not installed.
根据李书恒同学的反馈,服务器无法使用nvcc -V
命令,具体原因不详,推测是cuda的一些相关工具没有下载完全,毕竟cuda、pytorch啥的都是可以正常使用的
根据命令行提示使用sudo apt install nvidia-cuda-toolkit
安装toolkit即可
如果安装完成之后nvcc -V
还不行就:
-
vim ~/.bashrc
-
在文件末尾添加
export LD_LIBRARY_PATH=/usr/local/cuda/lib
export PATH=$PATH:/usr/local/cuda/bin
- 执行
source ~/.bashrc
激活下路径
大服务器在重启后经常出现无法进入系统的问题
根据李师姐的经验,参考:https://blog.csdn.net/u013810296/article/details/86683559
先进入recovery mode,选择network使系统由只读变为可读写,然后选择resume重启即可
常用命令
lspci | grep -i vga
:查看pci总线上都插了些什么玩意儿
lspci | grep -i nvidia
:可以看到显卡基本信息