>
Home

登龙(DLonng)

选择大于努力

Linux 高级编程 - 进程基本概念


版权声明:本文为 DLonng 原创文章,可以随意转载,但必须在明确位置注明出处!

进程基本概念

这篇文章带你了解 Linux 进程的基本概念,不解释了,快点上车…

程序和进程

先看看程序和进程的区别,程序是一个磁盘上的文件,而进程通常被定义为一个正在运行的程序实例,进程由两部分组成:

  1. 操作系统用来管理进程的内核对象:内核对象用来存放进程的统计信息
  2. 独立的内存地址空间:包含可执行模块的代码和数据,还包含分配的内存空间,例如堆,栈

进程运行过程

运行进程可以简单的理解为:计算机将磁盘的二进制程序加载到内存空间中,并且指引 CPU 在内存中寻址,然后计算的过程:

  1. 将磁盘程序装载到内存,所谓实例化
  2. 读取并执行内存中的程序段内容,这个过程会涉及变量分配和内存寻址等操作
  3. 结束或者继续执行

进程运行特性

进程的运行特性主要可以包含 3 个方面:

  1. 多任务:内存中可以存在多个进程
  2. 并发:多个进程可以「并发」执行
  3. 程序独立:进程之间互不影响

例如 Linux 系统是多任务,分时系统,每个进程都有独立的地址空间,操作系统给每个进程都分配一定的 CPU 执行时间片,然后通过进程调度(时间片轮转调度算法)来同时调度运行多个程序,因为调度时间被设置的非常短,模拟了好像每个程序都独占地使用 CPU 的状态。如下图:

PRO_CPU

A,B,C,D 每个进程都有固定的运行时间片。比如当进程 B 的时间片用完了,操作系统就保存 B 进程的状态,并将 CPU 切换到另外一个进程 A 去运行,之后再次轮到 B 进程运行时,操作系统就恢复之前保存的状态继续执行。这些切换的时间非常短,以至于在单 CPU 上,可以模拟出「并行执行」的效果,但是实际上还是顺序执行。但在多核 CPU 上,每个 CPU 都可以单独运行一个程序,那样才是真正的并行执行。

进程地址空间 & 虚拟内存

因为系统中同时存在多个进程,为了避免它们相互干扰,需要某种保护机制。通常每个进程有一些可以使用的内存地址集合,如果多个进程需要的总内存比物理内存小,那么可以在内存中存放多个进程,如果有进程需要使用比物理内存还要大的内存,那么在早期这个进程就不能运行了。

但是现在有一种称为虚拟内存的技术可以解决这个难题:操作系统创建一个地址空间的抽象,作为进程可以引用的地址集合,例如 32 位上是 2^32 = 4 GB,这个地址空间被分割成一个个的页面(page),常见 4KB 大小。这些页面被映射到物理内存,但并不是所有的页面都在内存中才可以运行程序,而是只加载需要的部分:

  1. 当进程引用到的内容在物理内存中,就由硬件映射到进程地址空间中
  2. 当进程引用到的内存不在物理内存中,就由操作系统负责将缺失的部分装入物理内存并重新执行失败的指令,这个过程也叫做「缺页中断」

在 32 bit 系统中,进程地址空间大小为 2 ^ 32 = 4 GB,具体分配如下图:

address_space

一个进程地址空间主要包含下面这些:

  1. 代码段:只读
  2. 数据段:初始化过的变量
  3. BSS 段:未初始化的变量
  4. 堆空间:低地址向高地址增长,调用 malloc 分配堆内存
  5. 栈空间:高地址向低地址增长,自动增长和释放,用于存储临时变量和函数调用
  6. 内存映射空间:比如用于进程间通信(IPC)的共享内存文件

其中每个部分都有很多可以学习的,这里只是介绍基本的的概念。

进程生命周期

进程主要的生命周期有 3 个,在不同的系统中都是大同小异:

  1. 运行
  2. 挂起
  3. 消亡

整个生命周期可以用下图来表示:

schedule

例如在 Linux 中:

  1. 进程通过 fork 系统调用被创建,进入 TASK_RUNNING 准备运行状态
  2. 如果此进程被内核schedule 调度器调度运行,则会进入运行状态TASK_RUNNING
  3. 如果进程睡眠或者等待 IO 则会处于任务挂起状态(TASK_INTERRUPTIBLE)或(TASK_UNINTERRUPTIBLE),这两者的区别是能否被中断唤醒。
  4. 如果进程退出,例如调用 do_exit 则进入消亡状态

进程表

在许多操作系统中,与一个进程有关的所有信息,除了该进程自身地址空间的内容以外,均放在操作系统的一张表中,称为进程表(process table),进程表是数组或者链表结构,当前存在的每个进程都要占用其中的一项。每个表项描述的进程信息有下面 3 类:

  1. 进程管理信息:比如使用的寄存器状态,PSW,进程优先级,父进程,栈指针等等
  2. 文件管理信息:比如当前工作目录,用户 ID,组 ID 等等
  3. 存储管理信息:比如常见的进程的代码段指针,数据段指针等等

进程树

在 Linux 中一个进程可以创建子进程,子进程也可以创建子进程,这样就可形成一棵进程树,像下面这样:

pro_tree

在这个进程树中,进程 A 创建了它的 2 个子进程 B 和 C,进程 B 又创建了它的 3 个子进程 D,E,F,这样就形成了一颗树,要注意的是,进程树的深度一般是 2 - 3 层,不会太多。但是在 Windows 中却没有子进程和进程树这些概念,Windows 上的进程都是平等的。

僵尸进程 & 孤儿进程

有时候父子进程之间会出现点异常,例如下面这两种状态:

孤儿进程:父进程退出,而它的一个或多个子进程还在运行,那么那些子进程将成为孤儿进程。孤儿进程将被 init 进程(进程号为 1) 所收养,并由 init 进程对它们完成状态收集工作,这样的进程称为孤儿进程。

僵尸进程:一个进程使用 fork 创建子进程,如果子进程退出,而父进程并没有调用 waitwaitpid 获取子进程的状态信息,那么子进程的进程描述符仍然保存在系统中,这样的进程称之为僵尸进程。

结语

在学习 Linux 的进程之前,这些概念是需要了解的,这会帮助我们更好的理解和编写进程相关的代码。进程管理也是内核中的一个非常重要的模块,毕竟我们天天玩的都是一个个的进程,了解它的原理太有必要了!

最后,感谢你的阅读,我们下次再见 :)

本文原创首发于微信公号「登龙」,分享机器学习、算法编程、Python、机器人技术等原创文章,扫码即可关注

DLonng at 08/03/17