实验室简易装机手册

Posted by HieDean on October 17, 2020

制作U盘启动盘

  • 首先需要在官网(https://ubuntu.com)下载ubuntu镜像并制作U盘启动盘,本文在写时ubuntu系统已更新至20.04LTS版本,但为了保证服务器稳定性,建议下载18.04LTS版或16.04LTS版。

  • 制作U盘启动盘

    我所使用的软件是rufus,制作U盘启动盘的软件很多,可自行选择,这里以rufus为例

    rufus界面如下:

    image-20201017170238717

    1. 设备一栏选择将要被制成启动盘的U盘

    2. 引导类型选择一栏选择上一步下载的Ubuntu镜像

    3. 其余选项均默认,点击开始等待即可

使用U盘启动盘给服务器装系统

将制作好的U盘启动盘插入主板的USB-A口,启动主板并进入BIOS,不同的主板进入BIOS的方法不同,本文以实验室的大服务器,华硕主板为例。

该主板在启动时会提示如何进入BIOS,如下图所示,按del键即可

进入BIOS后通过方向键选择至boot界面,修改硬盘启动优先级,将插入的U盘设置为最高优先级,这样主板在下次启动时才会从U盘启动,修改好之后根据提示保存并重启

重启后会进入grub引导界面,选择安装Ubuntu,即Install Ubuntu

这样我们就进入了ubuntu安装界面

语言建议选择English

键盘布局建议选择English

勾选Normal installationInstal third party software...

img

勾选something else,进入手动分区界面

实验室的硬件配置一般都是一块SSD,一块机械硬盘,因此在手动分区界面我们可以看到两块设备分别是/dev/sda/dev/sdb

选中SSD所对应的设备,假设是/dev/sda且该SSD现在未分区,点击New Partition Table,这样就会出现free space的分区space空间,当然如果SSD之前有过使用的话,可能其上已经有建好的分区了,此时可以选择备份删除或者在剩下的空闲空间进行安装

选中free space,点击+,出现下图所示窗口

img

实验室的服务器并不会被用作Web服务,大多都是用于计算,所以分区方案不需要太复杂,这里推荐一组分区方案

parttion Size Type Use Mount point
/ 100G Primary Ext4 /
/boot 1G Logical Ext4 /boot
swap 16G Logical Swap area  
/home 剩下的空间 Logical Ext4 /home

为了安全起见,/home不一定得挂载在SSD上,更好的选择是挂载在机械硬盘下并适当扩大/的分区大小,这样在重装系统时,只需要将SSD格式化即可,机械硬盘中的珍贵数据仍然被保留了下来

另外不建议将整块机械硬盘全部挂载为/home,最好分成两个分区然后只挂载其中一个,这样一个分区坏了还可以用另一个应急做备用

分区策略设置好后,点击Device for boot loader installation并选择SSD,这样系统便是从SSD启动的

最后点击install now,等待完成安装即可

除了以上步骤外,还会有设置用户名和密码的步骤,更据自己的需求设置就好

系统装好后的配置

新系统装好后会直接进入系统,这时需要输入用户名和密码,使用之前设置好的即可

进入系统的第一件事,由于校园网的限制,所以我们需要配置拨号上网,这里配置过程以ubuntu16.04为例

配置拨号上网

image-20201017185706504

image-20201017191315346

image-20201017191612912

按照一以上步骤配置好后,点击save保存即可

然后回到桌面在右上角选择刚才创建的拨号上网选项即可

image-20201017192026716

拨号上网就配置好了

下载ssh用于远程控制

打开terminal

疯狂键入以下命令

sudo apt-get update
sudo apt-get install openssh-server
sudo/etc/init.d/ssh start

然后查看ip

ifconfig

这样你就可以使用其他设备远程链接服务器了,当然前提是你的另一台设备上安装了ssh客户端(服务器上安装的是ssh服务端)

安装显卡驱动

image-20201017193659388

按照上图进行即可,在additional drivers里选择一个需要的驱动版本即可,如果没有自己想要的驱动版本,可以在terminal中使用sudo add-apt-repository ppa:graphics-drivers/ppa && sudo apt update命令进行更新

如果在apply changes之后使用nvidia-smi提示显卡驱动不匹配,重启一下就好。。。

安装cuda

在cuda官方网站https://developer.nvidia.com/cuda-downloads选择版本系统等,然后在命令行使用官方给出的命令

image-20201107160451272

下载时可能会因为网络不好出现failed to ssl_handshake: closed的错误,这样的话就只能等网络好的时候再试了555

anyway,下载好之后,使用sudo sh cuda_11.1.1_455.32.00_linux.run运行

image-20201107161536904

键入accept

image-20201107161617937

因为已经安装了显卡驱动,所以这一步先将驱动选项取消,然后安装

image-20201107161644981

安装好后添加环境变量

sudo vim ~/.bashrc并添加以下内容

export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-11.1/lib64
export PATH=$PATH:/usr/local/cuda-11.1/bin
export CUDA_HOME=$CUDA_HOME:/usr/local/cuda-11.1

使用source ~/.bashrc激活环境

随后使用nvcc -V,若出现下图则安装成功

image-20201107161845122

安装cudnn

官网https://developer.nvidia.com/rdp/cudnn-download注册并回答问卷,之后便可型选择相应版本的cudnn下载

image-20201107162527310

此处选择cuDNN Library for Linux[x86_64]

下载好后在命令行使用tar xvf cudnn-11.1-linux-x64-v8.0.4.30.tgz进行解压

解压好后在命令行依次执行以下命令

sudo cp cuda/include/cudnn.h /usr/local/cuda/include/
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64/
sudo chmod a+r /usr/local/cuda/include/cudnn.h
sudo chmod a+r /usr/local/cuda/lib64/libcudnn*

这样cudnn就好了

安装anaconda

官网https://www.anaconda.com/products/individual先下载Anaconda3-2020.07-Linux-x86_64.sh

然后在命令行中sudo sh Anaconda3-2020.07-Linux-x86_64.sh

安装过程中注意有一步问你yes or no,要选择yes

安装完之后,使用source ~/.bashrc激活环境

安装pytorch

先进入你想要安装的环境,建议在安装之前在命令行使用以下命令

sudo chown lab532 .conda
sudo chown lab532 anaconda3

这是有一次在安装时发现,anaconda的权限是在root下的,不在当前用户下,所以要改变其所属

然后去pytorch官网https://pytorch.org/查下载命令

这里使用conda install pytorch torchvision torchaudio cudatoolkit=11.0 -c pytorch

然后等待就行了

参考

https://www.jianshu.com/p/158ae8fcdb4a

https://www.jianshu.com/p/158ae8fcdb4a

记录一些问题

出现The program 'nvcc' is currently not installed.

根据李书恒同学的反馈,服务器无法使用nvcc -V命令,具体原因不详,推测是cuda的一些相关工具没有下载完全,毕竟cuda、pytorch啥的都是可以正常使用的

根据命令行提示使用sudo apt install nvidia-cuda-toolkit安装toolkit即可

如果安装完成之后nvcc -V还不行就:

  • vim ~/.bashrc

  • 在文件末尾添加

export LD_LIBRARY_PATH=/usr/local/cuda/lib
export PATH=$PATH:/usr/local/cuda/bin
  • 执行source ~/.bashrc激活下路径
大服务器在重启后经常出现无法进入系统的问题

根据李师姐的经验,参考:https://blog.csdn.net/u013810296/article/details/86683559

先进入recovery mode,选择network使系统由只读变为可读写,然后选择resume重启即可

常用命令

lspci | grep -i vga:查看pci总线上都插了些什么玩意儿

lspci | grep -i nvidia:可以看到显卡基本信息