gcc常用的编译选项对代码的影响(2)
时间:2005-06-22 来源:heack
今天再介绍一下关于ELF动态解析的过程。。。
ELF动态解析符号过程(修订版)
创建时间:2002-01-28
文章属性:原创
文章来源:http://www.xfocus.org/
文章提交:alert7 (sztcww_at_sina.com)
ELF动态解析符号过程(修订版)
by alert7
2002-01-27
★★ 前言
本篇文章以linux为平台为例,演示ELF动态解析符号的过程。
不正之处,还请斧正。
通常,ELF解析符号方式称为lazy MODE装载的。这种装载技术是ELF平台上
默认的方式。在不同的体系平台在实现这种机制也是不同的。但是i386和SPARC
在大部分上是相同的。
动态连接器(rtld)提供符号的动态连接,装载共享objects和解析标号的引用。
通常是ld.so,它可以是一个共享object也可以是个可执行的文件。
★★ 符号表(symbol table)
每个object要想使它对其他的ELF文件可用,就要用到符号表(symbol table)中
symbol entry.事实上,一个symbol entry 是个symbol结构,它描述了这个
symbol的名字和该symbol的value.symbol name被编码作为dynamic string
table的索引(index). The value of a symbol是在ELF OBJECT文件内该
symbol的地址。该地址通常需要被重新定位(加上该object装载到内存的基地址
(base load address)). 从而构成该symbol在内存中的绝对地址。
一个符号表入口有如下的格式:
typedef struct
{
Elf32_Word st_name; /* Symbol name (string tbl index) */
Elf32_Addr st_value; /* Symbol value */
Elf32_Word st_size; /* Symbol size */
unsigned char st_info; /* Symbol type and binding */
unsigned char st_other; /* No defined meaning, 0 */
Elf32_Section st_shndx; /* Section index */
} Elf32_Sym;
可执行文件他们知道运行时刻他们的地址,所以他们内部的引用符号在编译时候就已
经被重定位了。
★★ GOT(global offset table)
GOT是一个数组,存在ELF image的数据段中,他们是一些指向objects的指针(通常
是数据objects).动态连接器将重新修改那些编译时还没有确定下来地址的符号的
GOT入口。所以说GOT在i386动态连接中扮演着重要的角色。
★★ PLT(procedure linkage table)
PLT是一个这样的结构,它的entries包含了一些代码片段用来传输控制到外部的过程。
在i386体系下,PLT和他的代码片段entries有如下格式:
PLT0:
push GOT[1] ; word of identifying information
jmp GOT[2] ; pointer to rtld function nop
...
PLTn:
jmp GOT[x + n] ; GOT offset of symbol address
push n ; relocation offset of symbol
jmp PLT0 ; call the rtld
PLTn + 1
jmp GOT[x +n +1]; GOT offset of symbol address
push n +1 ; relocation offset of symbol
jmp PLT0 ; call the rtld
当传输控制到一个外部的函数时,它传输执行到PLT 中跟该symbol相关的那个entry
(是在编译时候连接器安装的)。在PLT entry中第一条指令将jump到一个存储在GOT
中的一个指针地址;假如符号还没有被解析,该GOT中存放着的是该PLT entry中的
下一条指令地址。该指令push一个在重定位表中的偏移量到stack,然后下一条指令
传输控制到PLT[0]入口。该PLT[0]包含了调用RTLD解析符号的函数代码。该
解析符号函数地址由程序装载器已经插入到GOT[2]中了。
/*congwu 2005.2.26:这里是非常重要的,也是理解这种方式的一个关键之处,即,加载器参与了动态链接的工作*/
以下是我笔记36面曾试过的一个例子
elf_test.c
#include<stdio.h>
int main(int argc,char * argv[])
{
printf(“Hello,world ”):
return 0;
}
$gcc –o elf_test elf_test.c
//注意:如果是gcc –c elf_test.c –o elf_test,生成的elf_test没有可执行的权限,挺奇怪的
使用objdump工具获得如下结果
注意:现在.plt里的jmp *0x8049500,也就是jmp GOT[2],现在是什么呢?在.got段中,可以看到,是0,这显然不对,那么什么时候填入了正确的内容呢?只能是加载器干的好事了。
从这里也可以看出,动态链接器是比较特殊的,至于它是如何处理的,现在还不得而知。
动态连接器将展开stack并且获取需要解析符号在重定位表地址信息。重定位入口、
符号表和字符串表共同决定着PLT entry引用的那个符号和在进程内存中符号应该
存放的地址。假如可能的话,该符号将被解析出来,它的地址将被存放在被该
PLT entry使用的GOT entry中。下一次该符号被请求时,与之对应的GOT已经包
含了该符号的地址了。所以,所有后来的调用将直接通过GOT传输控制。动态连接器
只解析第一次被二进制文件所引用的符号;这种引用方式就是我们上面所说的
lazy MODE。
★★ 哈希表和链(hash table and chain)
除了符号表(symbol table),GOT(global offset table),PLT(procedure
linkage table),字符串表(string table),ELF objects还可以包含一个
hash table和chain(用来使动态连接器解析符号更加容易)。hash table和chain
通常被用来迅速判定在符号表中哪个entry可能符合所请求的符号名。hash table(总
是伴随着chain的)被作为整型数组存放。在hash表中,一半位置是留给那些buckets的,
另一半是留给在chain中的元素(element)的. hash table直接反映了symbol table
的元素数目和他们的次序。
动态连接器结构提供了所有动态连接的执行是以透明方式访问动态连接器.
然而,明确访问也是可用的。动态连接(装载共享objects和解析符号),
可以通过直接访问RTLD的那些函数来完成:dlopen() , dlsym() and
dlclose() .这些函数被包含在动态连接器本身中。为了访问那些函数,
连接时需要把动态连接函数库(libdl)连接进去。该库包含了一些stub函数
允许编译时候连接器解析那些函数的引用;然而那些stub函数只简单的返回0。
因为事实上函数驻留在动态连接器中,假如从静态连接的ELF文件中调用
那些函数,共享object的装载将会失败。
对于执行动态连接器所必须的是:hash table,hash table元素的数目,
chain,dynamic string table和dynamic symbol talbe。满足了
这些条件,下面算法适用任何symbol的地址计算:
1. hn = elf_hash(sym_name) % nbuckets;
2. for (ndx = hash[ hn ]; ndx; ndx = chain[ ndx ]) {
3. symbol = sym_tab + ndx;
4. if (strcmp(sym_name, str_tab + symbol->st_name) == 0)
5. return (load_addr + symbol->st_value); }
hash号是elf_hash()的返回值,在ELF规范的第4部分有定义,以hash table中元素
个数取模。该号被用来做hash table的下表索引,求得hash值,找出与之匹配的符号
名的chain的索引(line 3)。使用该索引,符号从符号表中获得(line 3).比较获得