作为linux运维工程师应掌握的技巧有哪些

一万年太久

2018-03-19

虽然linux运维工程师多不胜数，而且都是行界中的大佬，但是对于一个相同的程序，谁能够节省谁就是真正的大佬，今天我们分享给大家的不是硬技术，主要是针对于同一个问题使用便捷的技巧解决。

技巧一：卸载无响应的DVD驱动器

网络新手的经历：按下服务器（运行基于Redmond的操作系统）DVD驱动器上的Eject按钮时，它会立即弹出。他然后抱怨说，在大多数企业Linux服务器中，如果在那个目录中运行某个进程，弹出就不会发生。作为一名长期的Linux管理员，我会重启机器。如果我不清楚正在运行什么，以及为何不释放DVD驱动器，我则会弹出磁盘。但这样效率很低。

下面介绍如何找到保持DVD驱动器的进程，并轻松弹出DVD驱动器：首先进行模拟。在DVD驱动器中放入磁盘，打开一个终端，装载DVD驱动器：

#mount/media/cdrom

#cd/media/cdrom

#while[1];doecho"Allyourdrivesarebelongtous!";sleep30;done

现在打开第二个终端并试着弹出DVD驱动器：

#eject

将得到以下消息：

umount:/media/cdrom:deviceisbusy

在释放该设备之前，让我们找出谁在使用它。

#fuser/media/cdrom

进程正在运行，无法弹出磁盘其实是我们的错误。

现在，如果您是根用户，可以随意终止进程：

#fuser-k/media/cdrom

现在终于可以卸载驱动器了：

#eject

fuser很正常。

技巧二：恢复出现问题的屏幕

尝试以下操作：

#cat/bin/cat

注意！终端就想垃圾一样。输入的所有内容非常零乱。那么该怎么做呢？

输入reset。但是，输入reset与输入reboot或shutdown太接近了。吓得手心冒汗了吧—特别是在生产机器上执行这个操作时。

放心吧，在进行此操作时，机器不会重启。继续操作：

#reset

现在屏幕恢复正常了。这比关闭窗口后再次登陆好多了，特别是必须经过5台机器和SSH才能到达这台机器时。

技巧三：屏幕协作

来自产品工程的高级维护用户David打电话说：“为什么我不能在您部署的这些新机器上编译supercode.c”。

您会问他：“您运行的是什么机器？”

David答道：“Posh”。（这个虚够的公司将它的5台生产服务器以纪念SpiceGirls的方式命名）。这下您可以大显身手了，另一台机器由David操作：

#su-david

转到posh：

#sshposh

到达之后，运行以下代码：

#screen-Sfoo

然后呼叫David：

“David，在终端运行命令#screen-xfoo”。

这使您和David的会话在Linuxshell中联接在一起。您可以输入，他也可以输入，但彼此可以看到对方所做的事情。这避免了进入其他层次，而且双方都有相同的控制权。这样做的好处是David可以观察到您的故障诊断技巧，并能准确了解如何解决问题。

最后大家都能看到问题所在：David的编译脚本对一个不在此新服务器上的旧目录进行了硬编码。将它装载后再次编译即可解决问题，然后David继续工作。您则可以继续之前的娱乐活动。

关于此技巧需要注意的一点是，双方需要以同一用户登录。screen命令还可以：实现多个窗口和拆分屏幕。请阅读手册页获取更多相关信息。

对于screen会话，我还有最后一个技巧。要从中分离并让它打开，请输入：

Ctrl-AD

（即按住Ctrl键并点击A键。然后按D键）。

然后通过再次运行screen-xfoo命令可以重新拼接起来。

技巧四：检查带宽

设想：公司A有一个名为ginger的存储服务器，并通过名为beckham的客户端节点装载NFS。公司A确定他们需要从ginger得到更多的带宽，因为有大量的节点需要NFS装载ginger的共享文件系统。

实现此操作的最常用和最便宜的方式是将两个吉比特以太网NIC组合在一起。这是最便宜的，因为您通常会有一个额外的可用NIC和一个额外的端口。

所以采取此这个方法。不过现在的问题是：到底需要多少带宽？

吉比特以太网理论上的限制是128MBit/s。这个数字从何而来？看看这些计算：

1Gb=1024Mb；1024Mb/8=128MB；”b”=“bits,”、”B”=“bytes”

但实际看到的是什么呢，有什么好的测量方法呢？我推荐一个工具iperf。可以按照以下方法获得iperf：

#wgethttp://dast.nlanr.net/Projects/Iperf2.0/iperf-2.0.2.tar.gz

需要在ginger和beckham均可见的共享文件系统上安装此工具，或者在两个节点上编译并安装。我将在两个节点均可见的bob用户的主目录中编译它：

tarzxvfiperf*gz

cdiperf-2.0.2

./configure-prefix=/home/bob/perf

make

makeinstall

在ginger上，运行：

#/home/bob/perf/bin/iperf-s-fM

这台机器将用作服务器并以MBit/s为单位输出执行速度。

在beckham节点上，运行：

#/home/bob/perf/bin/iperf-cginger-P4-fM-w256k-t60

两个屏幕上的结果都指示了速度是多少。在使用吉比特适配器的普通服务器上，可能会看到速度约为112MBit/s。这是TCP堆栈和物理电缆中的常用带宽。通过以端到端的方式连接两台服务器，每台服务器使用两个联结的以太网卡，我获得了约220MBit/s的带宽。

事实上，在联结的网络上看到的NFS约为150-160MBit/s。这仍然表示带宽可以达到预期效果。如果看到更小的值，则应该检查是否有问题。

我最近碰到一种情况，即通过连接驱动程序连接两个使用了不同驱动程序的NIC。这导致性能非常低，带宽约为20MBit/s，比不连接以太网卡时的带宽还小！

作为linux运维工程师应掌握的技巧有哪些

技巧五：命令行脚本和实用程序

Linux系统管理员通过使用权威的命令行脚本会变得更高效。这包括巧妙使用循环和知道如何使用awk、grep和sed等的实用程序解析数据。通常这可以减少击键次数，降低用户出错率。

例如，假设需要为即将安装的Linux集群生成一个新的/etc/hosts文件。一般的做法是在vi或文本编辑器中添加IP地址。不过，可以通过使用现有/etc/hosts文件并将以下内容追加到此文件来实现。在命令行上运行：

#P=1;foriin$(seq-w200);doecho"192.168.99.$Pn$i";P=$(expr$P+1);

done>>/etc/hosts

200个主机名（n001到n200）将由IP地址（192.168.99.1到192.168.99.200）来创建。手动填充这样的文件有可能会创建重复的IP地址或主机名，因此这是使用内置命令行消除用户错误的好例子。请注意，这是在bashshell（大多数Linux发行版的默认值）内完成的。

再举一个例子，假设要检查Linux集群中的各个计算节点中的内存大小是否一样。通常，拥有一个发行版或类似的shell是较好的。但是为了演示，以下使用SSH。

假设SSH设置为不使用密码验证。然后运行：

#fornumin$(seq-w200);dosshn$numfree-tm|grepMem|awk'{print$2}';

done|sort|uniq

这样的命令行相当简洁。（如果在其中放入正则表达式情况会更糟）。让我们对它进行细分，详细讨论各部分。

首先从001循环到200。使用seq命令的-w选项在前面填充0。然后替换num变量，创建通过SSH连接的主机。有了目标主机后，向它发出命令。本例中是：

free-m|grepMem|awk'{print$2}'

这个命令的意思是：

使用free命令获取以兆字节为单位的内存大小。

获取这个命令的结果，并使用grep获取包含字符串Mem的行。

获取那一行并使用awk输出第二个字段，它是节点中的总内存。

在每个节点上执行这个操作。

在每个节点上执行命令后，200个节点的整个输出就传送（|d）到sort命令，以对所有内存值进行排序。

最后，使用uniq命令消除重复项。这个命令会导致以下情况中的一种：

如果所有节点（n001到n200）拥有相同的内存大小，则只显示一个数字。这个数字就是每个操作系统看到的内存大小。

如果节点内存大小不同，将会看到几个内存大小的值。

最后，如果某个节点上的SSH出现故障，则会看到一些错误消息。

这个命令并不是完美无缺的。如果发现与预期不同的内存值，您就不知道是哪一个节点出了问题，或者有多少个节点。为此需要发出另一个命令。

这个技巧提供了一种查看某些内容的快速方式，而且如果发生错误，您可以立刻知道。其价值在于快速检查。

技巧六：控制台侦察

有些软件会向控制台输出错误消息，而控制台不一定会显示在SHH会话中。使用vcs设备可以进行检查。在SSH会话中，在远程服务器#cat/dev/vcs1上运行以下命令。这将显示第一个控制台中的内容。也可以使用2、3等查看其他虚拟终端。如果某个用户在远程系统上输入，您将看到他输入的内容。

在大多数数据场中，使用远程终端服务器、KVM甚至SerialOverLAN是查看这类信息的较好方式；它也提供了带外查看功能的一些好处。使用vcs设备能够提供一种快速带内方法，这能节省去机房查看控制台的时间。

技巧七：随机系统信息收集

在技巧五中，介绍了一个使用命令行获取有关系统中总内存信息的例子。在这个技巧中，我将介绍几个其他方法，用于从需要进行验证、故障诊断或给予远程支持的系统收集重要信息。

首先，收集关于处理器的信息。通过以下命令很容易实现：

#cat/proc/cpuinfo

这个命令给出关于处理器的速度、数量和型号的信息。在许多情况下使用grep可以得到需要的值。

我经常做的检查是确定系统中处理器的数量。因此，如果我买了一台带双核处理器的四核服务器，我可以运行以下命令：

#cat/proc/cpuinfo|grepprocessor|wc-l

然后我看到值应该是8。如果不是，我会打电话给供应商，让他们给我派送另一台处理器。

我需要的另一条信息是磁盘信息。可以使用df命令获得。我总是添加-h标记，以便看到以十亿字节或兆字节为单位的输出。#df-h还会显示磁盘的分区情况。

列表最后是查看系统固件的方式——一个获取BIOS级别和NIC上的固件信息的方法。

要检查BIOS版本，可以运行dmidecode命令。遗憾的是，不能轻易使用grep获取信息，所以这不是一个很有效的方法。对于我的LenovoT61laptop，输出如下：

#dmidecode|less

...

BIOSInformation

Vendor:LENOVO

Version:7LET52WW(1.22)

ReleaseDate:08/27/2007

...

这比重启机器并查看POST输出有效得多。

要检查以太网适配器的驱动程序和固件版本，请运行ethtool：

#ethtool-ieth0

driver:e1000

version:7.3.20-k2-NAPI

firmware-version:0.3-0

介绍了这么多的技巧，我希望至少有一个技巧能帮助您学习到您不知道的知识。像这样的基本技巧可以使您更高效，并且能增长经验。有更多不同的技巧，也可以分享给我。

linux运维

安科网

作为linux运维工程师应掌握的技巧有哪些

一万年太久

一万年太久

相关推荐

13款Linux运维比较实用的工具

Linux运维之，关闭终端，程序后台运行，我有5种方法你呢？

Linux运维面试（填空题）

[Docker]ECS服务器下Docker运维（不定时更新）

多线程自动化运维linux的尝试优化一

Python自动化运维实战：从Linux系统中收集数据

40岁从事Linux运维岗位合适吗?

女生真的不适合做IT行业吗?Linux运维适合女生学习吗?

Linux运维需要做什么?Linux行业前景怎么样?

LINUX运维——文件管理命令及用户和组管理

Linux运维如何在Linux终端获取公有 IP

云计算视频教程：Linux大型网站高并发架构及自动化运维

30岁以后的运维，如何度过中年危机?

linux运维、架构之路-Docker架构原理

linux学习33 运维高级技能-在Linux实现LVM逻辑卷及快照

linux运维、架构之路-企业级镜像仓库Harbor

Linux运维工程师有钱途吗?

Linux运维工程师：监控Linux文件变化，防止系统被黑

Linux运维程序员必备：多语言编程必备的十大Vim插件

Linux docker 宝塔运维安装

一万年太久