实验室简易装机手册

制作U盘启动盘

首先需要在官网（https://ubuntu.com）下载ubuntu镜像并制作U盘启动盘，本文在写时ubuntu系统已更新至20.04LTS版本，但为了保证服务器稳定性，建议下载18.04LTS版或16.04LTS版。
制作U盘启动盘

我所使用的软件是rufus，制作U盘启动盘的软件很多，可自行选择，这里以rufus为例

rufus界面如下：
1. 设备一栏选择将要被制成启动盘的U盘
2. 引导类型选择一栏选择上一步下载的Ubuntu镜像
3. 其余选项均默认，点击开始等待即可

使用U盘启动盘给服务器装系统

将制作好的U盘启动盘插入主板的USB-A口，启动主板并进入BIOS，不同的主板进入BIOS的方法不同，本文以实验室的大服务器，华硕主板为例。

该主板在启动时会提示如何进入BIOS，如下图所示，按del键即可

进入BIOS后通过方向键选择至boot界面，修改硬盘启动优先级，将插入的U盘设置为最高优先级，这样主板在下次启动时才会从U盘启动，修改好之后根据提示保存并重启

重启后会进入grub引导界面，选择安装Ubuntu，即Install Ubuntu

这样我们就进入了ubuntu安装界面

语言建议选择English

键盘布局建议选择English

勾选Normal installation和Instal third party software...

勾选something else，进入手动分区界面

实验室的硬件配置一般都是一块SSD，一块机械硬盘，因此在手动分区界面我们可以看到两块设备分别是/dev/sda和/dev/sdb

选中SSD所对应的设备，假设是/dev/sda且该SSD现在未分区，点击New Partition Table，这样就会出现free space的分区space空间，当然如果SSD之前有过使用的话，可能其上已经有建好的分区了，此时可以选择备份删除或者在剩下的空闲空间进行安装

选中free space，点击+，出现下图所示窗口

实验室的服务器并不会被用作Web服务，大多都是用于计算，所以分区方案不需要太复杂，这里推荐一组分区方案

parttion	Size	Type	Use	Mount point
/	100G	Primary	Ext4	/
/boot	1G	Logical	Ext4	/boot
swap	16G	Logical	Swap area
/home	剩下的空间	Logical	Ext4	/home

为了安全起见，/home不一定得挂载在SSD上，更好的选择是挂载在机械硬盘下并适当扩大/的分区大小，这样在重装系统时，只需要将SSD格式化即可，机械硬盘中的珍贵数据仍然被保留了下来

另外不建议将整块机械硬盘全部挂载为/home，最好分成两个分区然后只挂载其中一个，这样一个分区坏了还可以用另一个应急做备用

分区策略设置好后，点击Device for boot loader installation并选择SSD，这样系统便是从SSD启动的

最后点击install now，等待完成安装即可

除了以上步骤外，还会有设置用户名和密码的步骤，更据自己的需求设置就好

系统装好后的配置

新系统装好后会直接进入系统，这时需要输入用户名和密码，使用之前设置好的即可

进入系统的第一件事，由于校园网的限制，所以我们需要配置拨号上网，这里配置过程以ubuntu16.04为例

配置拨号上网

按照一以上步骤配置好后，点击save保存即可

然后回到桌面在右上角选择刚才创建的拨号上网选项即可

拨号上网就配置好了

下载ssh用于远程控制

打开terminal

疯狂键入以下命令

sudo apt-get update
sudo apt-get install openssh-server
sudo/etc/init.d/ssh start

然后查看ip

ifconfig

这样你就可以使用其他设备远程链接服务器了，当然前提是你的另一台设备上安装了ssh客户端（服务器上安装的是ssh服务端）

安装显卡驱动

按照上图进行即可，在additional drivers里选择一个需要的驱动版本即可，如果没有自己想要的驱动版本，可以在terminal中使用sudo add-apt-repository ppa:graphics-drivers/ppa && sudo apt update命令进行更新

如果在apply changes之后使用nvidia-smi提示显卡驱动不匹配，重启一下就好。。。

安装cuda

在cuda官方网站https://developer.nvidia.com/cuda-downloads选择版本系统等，然后在命令行使用官方给出的命令

下载时可能会因为网络不好出现failed to ssl_handshake: closed的错误，这样的话就只能等网络好的时候再试了555

anyway，下载好之后，使用sudo sh cuda_11.1.1_455.32.00_linux.run运行

键入accept

因为已经安装了显卡驱动，所以这一步先将驱动选项取消，然后安装

安装好后添加环境变量

sudo vim ~/.bashrc并添加以下内容

export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-11.1/lib64
export PATH=$PATH:/usr/local/cuda-11.1/bin
export CUDA_HOME=$CUDA_HOME:/usr/local/cuda-11.1

使用source ~/.bashrc激活环境

随后使用nvcc -V，若出现下图则安装成功

安装cudnn

官网https://developer.nvidia.com/rdp/cudnn-download注册并回答问卷，之后便可型选择相应版本的cudnn下载

此处选择cuDNN Library for Linux[x86_64]

下载好后在命令行使用tar xvf cudnn-11.1-linux-x64-v8.0.4.30.tgz进行解压

解压好后在命令行依次执行以下命令

sudo cp cuda/include/cudnn.h /usr/local/cuda/include/
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64/
sudo chmod a+r /usr/local/cuda/include/cudnn.h
sudo chmod a+r /usr/local/cuda/lib64/libcudnn*

这样cudnn就好了

安装anaconda

官网https://www.anaconda.com/products/individual先下载Anaconda3-2020.07-Linux-x86_64.sh

然后在命令行中sudo sh Anaconda3-2020.07-Linux-x86_64.sh

安装过程中注意有一步问你yes or no，要选择yes

安装完之后，使用source ~/.bashrc激活环境

安装pytorch

先进入你想要安装的环境，建议在安装之前在命令行使用以下命令

sudo chown lab532 .conda
sudo chown lab532 anaconda3

这是有一次在安装时发现，anaconda的权限是在root下的，不在当前用户下，所以要改变其所属

然后去pytorch官网https://pytorch.org/查下载命令

这里使用conda install pytorch torchvision torchaudio cudatoolkit=11.0 -c pytorch

然后等待就行了

参考

https://www.jianshu.com/p/158ae8fcdb4a

记录一些问题

出现`The program 'nvcc' is currently not installed.`

根据李书恒同学的反馈，服务器无法使用nvcc -V命令，具体原因不详，推测是cuda的一些相关工具没有下载完全，毕竟cuda、pytorch啥的都是可以正常使用的

根据命令行提示使用sudo apt install nvidia-cuda-toolkit安装toolkit即可

如果安装完成之后nvcc -V还不行就：

vim ~/.bashrc
在文件末尾添加

export LD_LIBRARY_PATH=/usr/local/cuda/lib
export PATH=$PATH:/usr/local/cuda/bin

执行source ~/.bashrc激活下路径

大服务器在重启后经常出现无法进入系统的问题

根据李师姐的经验，参考：https://blog.csdn.net/u013810296/article/details/86683559

先进入recovery mode，选择network使系统由只读变为可读写，然后选择resume重启即可

常用命令

lspci | grep -i vga：查看pci总线上都插了些什么玩意儿

lspci | grep -i nvidia：可以看到显卡基本信息