Linux命名空间学习教程（三） PID

更新时间：2022-09-16 19:00:02

本文讲的是Linux命名空间学习教程（三） PID，【编者的话】Docker核心解决的问题是利用LXC来实现类似VM的功能，从而利用更加节省的硬件资源提供给用户更多的计算资源。而 LXC所实现的隔离性主要是来自内核的命名空间, 其中pid、net、ipc、mnt、uts 等命名空间将容器的进程、网络、消息、文件系统和hostname 隔离开。本文是Linux命名空间系列教程的第三篇，重点介绍PID命名空间。DockerOne在撸代码的基础上进行了校对和整理。

继上一篇关于IPC namespace的文章（进程间通信的隔离），我将介绍我个人（作为系统管理员）最喜欢的部分：PID namespaces。如果你尚未阅读过之前的文章，我强烈建议你先阅读一遍这个系列的第一篇文章，了解一下Linux namespace隔离机制。

是的，通过这个namespace，我们将有可能重置PID计数，得到自己的“1”进程。这可以被视为在进程标识符(identifier)树中的“chroot”。尤其是当你需要在日常工作中处理pid，并且为4位数（pid）所困时，这将是极为方便的解决方法。

要激活PID namespace，只需要把“CLONE_NEWPID”标记添加到“clone”调用。不需要其他额外的步骤。它也能和其他namespace组合使用。

一旦激活，子进程getpid()的返回结果将会是不变的“1”。

但是，请等一下！这样岂不是有两个“1”进程了？那么进程管理应该怎么办？

事实上，这真的真的很像“chroot”。也就是说，它是视角的改变。

Host: 所有的进程是可见的，全局的PIDs (init=1, ..., child=xxx, ...)
Container: 只有child + descendant(后代)是可见的，本地PIDs (child=1, ...)

示例如下：

#define _GNU_SOURCE
#include <sys/types.h>
#include <sys/wait.h>
#include <stdio.h>
#include <sched.h>
#include <signal.h>
#include <unistd.h>
#define STACK_SIZE (1024 * 1024)
// sync primitive
int checkpoint[2];
static char child_stack[STACK_SIZE];
char* const child_args[] = {
"/bin/bash",
NULL
};
int child_main(void* arg) {
char c;
// init sync primitive
close(checkpoint[1]);
// wait...
read(checkpoint[0], &c, 1);
printf(" - [%5d] World !\n", getpid());
sethostname("In Namespace", 12);
execv(child_args[0], child_args);
printf("Ooops\n");
return 1;
}
int main() {
// init sync primitive
pipe(checkpoint);
printf(" - [%5d] Hello ?\n", getpid());
int child_pid = clone(child_main, child_stack+STACK_SIZE,
  CLONE_NEWUTS | CLONE_NEWIPC | CLONE_NEWPID | SIGCHLD, NULL);
// further init here (nothing yet)
// signal "done"
close(checkpoint[1]);
waitpid(child_pid, NULL, 0);
return 0;
}

运行下示例：

jean-tiare@jeantiare-Ubuntu:~/blog$ gcc -Wall main-3-pid.c -o ns && sudo ./ns
- [ 7823] Hello ?
- [    1] World !
root@In Namespace:~/blog# echo "=> My PID: $$"
=> My PID: 1
root@In Namespace:~/blog# exit

与预期的一样，即使父进程的PID是“7823”，子进程的PID是“1”。如果想试试更好玩的，你可以尝试使用“kill -KILL 7823”，来终止父进程。准确来讲，根本不会发生任何意外情况。

jean-tiare@jeantiare-Ubuntu:~/blog$ gcc -Wall main-3-pid.c -o ns && sudo ./ns
- [ 7823] Hello ?
- [    1] World !
root@In Namespace:~/blog# kill -KILL 7823
bash: kill: (7823) - No such process
root@In Namespace:~/blog# exit

隔离如我们预期的一样工作着。并且，如之前所写的那样，这种行为很类似“chroot”，意味着当父进程使用“top”或“ps exf”时，将会显示子进程和它未映射的PID。像“kill”，“cgroups”以及其他机制一样，这是进程控制最基本的特性。

等等！说到“top”和“ps exf”，我刚从子进程运行了它们，然后发现和父进程一样的内容。你对我撒谎了！

好吧，并不是这样的。这是因为这些工具从真实的“/proc”文件系统获取信息，而它目前尚未被隔离。而这个正是下一篇文章的目标。

同时，一个简单的工作区可以是这样的：

from child

root@In Namespace:~/blog# mkdir -p proc root@In Namespace:~/blog# mount -t proc proc proc root@In Namespace:~/blog# ls proc 1 dma key-users net sysvipc 80 dri kmsg pagetypeinfo timer_list acpi driver kpagecount partitions timer_stats asound execdomains kpageflags sched_debug tty buddyinfo fb latency_stats schedstat uptime bus filesystems loadavg scsi version cgroups fs locks self version_signature cmdline interrupts mdstat slabinfo vmallocinfo consoles iomem meminfo softirqs vmstat cpuinfo ioports misc stat zoneinfo crypto irq modules swaps devices kallsyms mounts sys diskstats kcore mtrr sysrq-trigger
所以程序似乎再一次变得合理了。如预期一样，你从/bin/bash本身得到了PID “1”，并通过“/bin/ls proc”得到了对应的“80”。是不是比通常的/proc更加nice？这正是我喜欢它的原因。

如果你尝试从namespace直接在“/proc”运行这条命令，它在child中可以运行，但是会BREAK你的主namespace。例子如下：

jean-tiare@jeantiare-Ubuntu:~/blog$ ps aux
Error, do this: mount -t proc proc /proc

这就是PID namespace的全部。有了下一篇文章，我们将能够重新挂载/proc本身，也就可以修复“top”及类似的工具，使之不会破坏parent namespace(父命名空间)。谢谢阅读！

原文链接：Introduction to Linux namespaces – Part 3: PID（翻译：孙科审校：李颖杰）

原文发布时间为： 2014-12-25

本文作者：codesun

本文来自云栖社区合作伙伴DockerOne，了解相关信息可以关注DockerOne。

原文标题：Linux命名空间学习教程（三） PID

上一篇 : ：贵州携阿里云建全国***数据共享平台下一篇 : 支持开源英特尔为云计算提供测试平台

Linux命名空间学习教程（三） PID

from child

相关阅读

推荐文章