进程调度
主要进程调度是为了并发执行
进程
http://wenku.baidu.com/link?url=hpHxRSz8ix9nvqJqn2nWzlFF_BF3N7pZUQMnoFQY967rB-t0fWd3gl2NzPIV008mHEtl0uaqHZlNbRQIkMgcjqix_WkOH5KtRwbyaRGjmIO
相关
在用户空间,或者应用编程领域 ,Linux提供了一些API或者系统调用来影响Linux的内核调度器,或者是获取内核调度器的信息。比如可以获取或者设置进程的调度策略、优先级,获取CPU时间片大小的信息。
调度
介绍
从2.4的非抢占内核发展到今天的可抢占内核,普通进程的调度算法也从O(1)到CFS,一个好的调度算法应当考虑以下几个方面:
公平:保证每个进程得到合理的CPU时间。
高效:使CPU保持忙碌状态,即总是有进程在CPU上运行。
响应时间:使交互用户的响应时间尽可能短。
周转时间:使批处理用户等待输出的时间尽可能短。
吞吐量:使单位时间内处理的进程数量尽可能多。
负载均衡:在多核多处理器系统中提供更高的性能
而在实际的内核中实时进程和普通进程为并存,因此调度算法至少存在两类.
调度策略
在linux中调度策略主要有五种:
SCHED_FIFO
实时进程使用的调度策略,此调度策略的进程一旦使用CPU则一直运行,直到有比其更高优先级的实时进程进入队列,或者其自动放弃CPU,适用于时间性要求比较高,但每次运行时间比较短的进程。
SCHED_RR
实时进程使用的时间片轮转法策略,实时进程的时间片用完后,调度器将其放到队列末尾,这样每个实时进程都可以执行一段时间。适用于每次运行时间比较长的实时进程。
SCHED_NORMAL
普通进程使用的调度策略,Linux默认的调度策略,其值为0 非实时进程的调度策略,也就是分时调度策略。分时进程则通过nice和counter值决定权值,nice越小,counter越大,被调度的概率越大,也就是曾经使用了cpu最少的进程将会得到优先调
SCHED_BATCH
除了不能抢占外与常规任务一样,允许任务运行更长时间,更好地使用高速缓存,适合于成批处理的工作。
SCHED_IDLE
它甚至比nice 19还有弱,为了避免优先级反转使用,这是由CFS导入的新等级。CPU空闲时,即SCHED_IDLE等级以外处于可执行状态的进程消失时,将被赋予执行权。也就是它将成为优先级最低的进程。
调度器类
idle_sched_class
pid=0, 调度类属于:idel_sched_class,所以在ps里面是看不到的。一般运行在开机过程和cpu异常的时候做dump。
stop_sched_class
优先级最高的线程,会中断所有其他线程,且不会被其他任务打断。作用:1.发生在cpu_stop_cpu_callback 进行cpu之间任务migration;2.HOTPLUG_CPU的情况下关闭任务。
rt_sched_class
RT,作用:实时线程
fair_sched_class
CFS(公平),作用:一般常规线程
不明白?
调度
首先,我们需要清楚,什么样的进程会进入调度器进行选择,就是处于TASK_RUNNING状态的进程,而其他状态下的进程都不会进入调度器进行调度。系统发生调度的时机如下
调用cond_resched()时(mmc中mmc_delay())
显式调用schedule()时
从系统调用或者异常中断返回用户空间时
从中断上下文返回用户空间时
当开启内核抢占(默认开启)时,会多出几个调度时机,如下
在系统调用或者异常中断上下文中调用preempt_enable()时(多次调用preempt_enable()时,系统只会在最后一次调用时会调度)
在中断上下文中,从中断处理函数返回到可抢占的上下文时(这里是中断下半部,中断上半部实际上会关中断,而新的中断只会被登记,由于上半部处理很快,上半部处理完成后才会执行新的中断信号,这样就形成了中断可重入)
而在系统启动调度器初始化时会初始化一个调度定时器,调度定时器每隔一定时间执行一个中断,在中断会对当前运行进程运行时间进行更新,如果进程需要被调度,在调度定时器中断中会设置一个调度标志位,之后从定时器中断返回,因为上面已经提到从中断上下文返回时是有调度时机的,在内核源码的汇编代码中所有中断返回处理都必须去判断调度标志位是否设置,如设置则执行schedule()进行调度。而我们知道实时进程和普通进程是共存的,调度器是怎么协调它们之间的调度的呢,其实很简单,每次调度时,会先在实时进程运行队列中查看是否有可运行的实时进程,如果没有,再去普通进程运行队列找下一个可运行的普通进程,如果也没有,则调度器会使用idle进程进行运行。之后的章节会放上代码进行详细说明。
系统并不是每时每刻都允许调度的发生,当处于硬中断期间的时候,调度是被系统禁止的,之后硬中断过后才重新允许调度。而对于异常,系统并不会禁止调度,也就是在异常上下文中,系统是有可能发生调度的。
初始化
sched_init ---- FAIR_GROUP_SCHED
初始化一个task_groups链表
在start_kernel中对调度器进行初始化的函数就是sched_init,其主要工作为
对相关数据结构分配内存
初始化root_task_group
初始化每个CPU的rq队列(包括其中的cfs队列和实时进程队列)
将init_task进程转变为idle进程 需要说明的是init_task在这里会被转变为idle进程,但是它还会继续执行初始化工作,相当于这里只是给init_task挂个idle进程的名号,它其实还是init_task进程,只有到最后init_task进程开启了kernel_init和kthreadd进程之后,才转变为真正意义上的idle进程。
相关流程
数据结构
每个CPU对应包含一个运行队列结构(struct rq),而每个运行队列又包含有其自己的实时进程运行队列(struct rt_rq)、普通进程运行队列(struct cfs_rq),也就是说每个CPU都有他们自己的实时进程运行队列及普通进程运行队列
运行队列(struct rq) 一个CPU一个运行队列
定义: DEFINE_PER_CPU_SHARED_ALIGNED(struct rq, runqueues);
相关操作:
调度组(struct task_group)
调度实体(struct sched_entity)
task_struct中调度相关信息
调度类(struct sched_class)
在内核中的所有现有调度类是按优先级的排序的列表中调度类。被称为该结构的第一个成员下一步是一个指针,指向下一个调度类具有较低的优先级,该列表中。使用列表来优先考虑不同类型在别人面前的任务。在当前Linux 版本中,其初始流程如下所示︰
idle模式----swapper进程
抢占
进程的状态
进程切换
时间片
栈的切换 ——改变栈指针
进程的创建
内核抢占
一个在内核态运行的进程,可能在执行内核函数期间被另一个进程取代。
在2.6版的内核中,内核引入了抢占能力;现在,只要重新调度是安全的,那么内核就可以在任何时间抢占正在执行的任务。
那么,什么时候重新调度才是安全的呢?只要没有持有锁,内核就可以进行抢占。锁是非抢占区域的标志。由于内核是支持SMP的,所以,如果没有持有锁,那么正在执行的代码就是可重新导入的,也就是可以抢占的。
为了支持内核抢占所作的第一处变动就是每个进程的thread_info引入了 preempt_count(thread_info.preempt_count)计数器。该计数器初始值为0,每当使用锁的时候数值加1,释放锁的时候数值减1。当数值为0的时候,内核就可执行抢占。从中断返回内核空间的时候,内核会检查flag和preempt_count的值。如果flag中TIF_NEED_RESCHED被设置,并且preempt_count为0的话,这说明有一个更为重要的任务需要执行并且可以安全地抢占,此时,调度程序就会调度(抢占当前进程)。如果preempt_count不为0,说明当前任务持有锁,所以抢占是不安全的。这时,就会像通常那样直接从中断返回当前执行进程。 如果当前进程所持有的所有的锁都被释放了,那么preemptcount就会重新为0。此时,释放锁的代码会检查need_resched是否被设置。如果是的话,就会调用调度程序。有些内核代码需要允许或禁止内核抢占。
如果内核中的进程被阻塞了,或它显式地调用了schedule(),内核抢占也会显式地发生。这种形式的内核代码从来都是受支持的,因为根本无需额外的逻辑来保证内核可以安全地发生被抢占。如果代码显式的调用了schedule(),那么它应该清楚自己是可以安全地被抢占的。
内核抢占发生在:
当"从中断处理程序"正在执行,且返回内核空间之前
内核代码再一次具有可抢占性的时候
如果内核中的任务显式的调用schedule()
如果内核中的任务阻塞(这同样也会导致调用schedule())
注: current->threadinfo.flags中TIF_NEED_RESCHED为1,表示当前进程需要执行schedule()释放CPU控制权 current->threadinfo.preemptcount的值不为0,表示当前进程持有锁不能释放CPU控制权(不能被抢占)
preempt_count()
PREEMPT_ACTIVE
进程一旦调用了schedule,如果再次被调度运行,那么有下面几种可能: 1.状态为TASK_RUNNING,处于运行队列,那么它肯定有机会再运行; 2.处于睡眠队列,那么一旦条件满足被唤醒,那么它就会运行。 那么如果一个进程被抢占的话,而且它不在运行队列,那么怎么再让它运行呢?答案是它不能运行了。为了避免这种情况,就必须避免处于非TASK_RUNNING的进程被抢占的进程不被赶出运行队列,也就是下面的代码,schedule的代码:
if (prev->state && !(preempt_count() & PREEMPT_ACTIVE)) {
switch_count = &prev->nvcsw;
if (unlikely((prev->state & TASK_INTERRUPTIBLE) && unlikely(signal_pending(prev))))
prev->state = TASK_RUNNING;
else {
if (prev->state == TASK_UNINTERRUPTIBLE)
rq->nr_uninterruptible++;
deactivate_task(prev, rq);
}
#define preempt_count() (current_thread_info()->preempt_count)
linux中mips架构使用寄存器28来指向当前进程的thread_info.相关代码:
/* How to get the thread information struct from C. */ static inline struct thread_info *current_thread_info(void) { register struct thread_info *__current_thread_info asm("$28");
} arch/mips/include/asm/thread_info.h
进程内核栈
http://www.360doc.com/content/12/0614/01/4672432_218018481.shtml
内核栈和进程结构体的关联
进程结构体struct task_struct 在内核中代表一个进程,其中记录进程的所有信息. 其中,void *stack;指向内核栈结构体的"栈底"
内核栈结构体union thread_union
union thread_union { struct thread_info thread_info; unsigned long stack[THREAD_SIZE/sizeof(long)]; };
#define THREAD_SIZE (PAGE_SIZE << THREAD_SIZE_ORDER) //MIPS 32bit 4K << 1 = 8K
二者是相互关联
内核栈的产生
do_fork()->copy_prcess()->dup_task_struct()
进程创建和调度
通过什么而创建,因为什么而调度
何时睡眠,何时唤醒
什么时候创建
什么时候调度
什么时候唤醒
队列
运行队列
工作队列
等待队列
遇到的等待队列 drivers/base/dd.c static DECLARE_WAIT_QUEUE_HEAD(probe_waitqueue); //设备驱动全部加载完成通过probe_waitqueue队列来同步各个驱动的probe
O(1)是多队列调度器,每个处理器都有一条自己的运行队列
多核进程管理
numa
非均匀存储器存取(Nonuniform-Memory-Access,简称NUMA)模型
参考
http://blog.csdn.net/lsl180236/article/details/51155373
http://blog.chinaunix.net/uid-27052262-id-3239260.html
http://www.cnblogs.com/Nancy5104/p/5389990.html
最后更新于