理解哈希表

时间：2010-11-21 来源：wbq_unix

哈希表是种数据结构，它可以提供快速的插入操作和查找操作。第一次接触哈希表时，它的优点多得让人难以置信。不论哈希表中有多少数据，插入和删除（有时包括侧除）只需要接近常量的时间即0(1）的时间级。实际上，这只需要几条机器指令。

对哈希表的使用者一一人来说，这是一瞬间的事。哈希表运算得非常快，在计算机程序中，如果需要在一秒种内查找上千条记录通常使用哈希表（例如拼写检查器)哈希表的速度明显比树快，树的操作通常需要O(N)的时间级。哈希表不仅速度快，编程实现也相对容易。

哈希表也有一些缺点它是基与数组的，数组创建后难于扩展某些哈希表被基本填满时，性能下降得非常严重，所以程序虽必须要清楚表中将要存储多少数据（或者准备好定期地把数据转移到更大的哈希表中，这是个费时的过程）。

而且，也没有一种简便的方法可以以任何一种顺序〔例如从小到大）遍历表中的数据项。如果需要这种能力，就只能选择其他数据结构。

然而如果不需要有序遍历数据，井且可以提前预测数据量的大小。那么哈希表在速度和易用性方面是无与伦比的。

散列函数能使对一个数据序列的访问过程更加迅速有效，通过散列函数，数据元素将被更快地定位：

　　1. 直接寻址法：取关键字或关键字的某个线性函数值为散列地址。即H(key)=key或H(key) = a•key + b，其中a和b为常数（这种散列函数叫做自身函数）

　　2. 数字分析法

　　3. 平方取中法

　　4. 折叠法

　　5. 随机数法

　　6. 除留余数法：取关键字被某个不大于散列表表长m的数p除后所得的余数为散列地址。即 H(key) = key MOD p, p<=m。不仅可以对关键字直接取模，也可在折叠、平方取中等运算之后取模。对p的选择很重要，一般取素数或m，若p选的不好，容易产生同义词。

1. 开放寻址法：Hi=(H(key) + di) MOD m, i=1,2,…, k(k<=m-1)，其中H(key)为散列函数，m为散列表长，di为增量序列，可有下列三种取法：

　　1. di=1,2,3,…, m-1，称线性探测再散列；

　　2. di=1^2, (-1)^2, 2^2,(-2)^2, (3)^2, …, ±(k)^2,(k<=m/2)称二次探测再散列;

　　3. di=伪随机数序列，称伪随机探测再散列。 ==

　　2. 再散列法：Hi=RHi(key), i=1,2,…,k RHi均是不同的散列函数，即在同义词产生地址冲突时计算另一个散列函数地址，直到冲突不再发生，这种方法不易产生“聚集”，但增加了计算时间。

　　3. 链地址法(拉链法)

当存储结构是链表时，多采用拉链法，用拉链法处理冲突的办法是：把具有相同散列地址的关键字(同义词)值放在同一个单链表中，称为同义词链表。有m个散列地址就有m个链表，同时用指针数组T[0..m-1]存放各个链表的头指针，凡是散列地址为i的记录都以结点方式插入到以T[i]为指针的单链表中。T中各分量的初值应为空指针。
　　例如，按上面例9.4所给的关键字序列，用拉链法构造散列表如图９.14所示。

　　
　　用拉链法处理冲突，虽然比开放定址法多占用一些存储空间用做链接指针，但它可以减少在插入和查找过程中同关键字平均比较次数(平均查找长度)，这是因为，在拉链法中待比较的结点都是同义词结点，而在开放定址法中，待比较的结点不仅包含有同义词结点，而且包含有非同义词结点，往往非同义词结点比同义词结点还要多。
　　如前面介绍的例9.4中，用线性探测法构造散列表的过程，我们知道，对前5个关键字的查找，每一个仅需要比较一次，对关键字49和24的查找，则需要比较2次，对关键字38的查找则需要比较4次，而对43的查找则需要比较3次。因此，对用线性探测法构造的散列表的平均查找长度为：
　　　　ASL=(1×5＋2×2＋3×1＋4×1)/9 ≈1.78
而用拉链法构造的散列表上查找成功的平均查找长度为：
　　　　ASL=(1×5+2×3+3×1)/9≈1.55
显然，开放定址法处理冲突的的平均查找长度要高于拉链法处理冲突的平均查找长度。但它们都比前面介绍的其它查找方法的平均查找长度要短。

#define HASHSIZE 32

//待存入表格数据

char *keywords[] = {
        "auto", "break", "case", "char", "const", "continue", "default",
        "do",
        "double", "else", "enum", "extern", "float", "for", "goto",
        "if",
        "int", "long", "register", "return", "short", "signed", "sizeof",
        "static",
        "struct", "switch", "typedef", "union", "unsigned", "void", "volatile",
        "while"
};

char keybuf[HASHSIZE][10];
static char val_flag[HASHSIZE];//标致已占用存储单元

void ClearFlag()
{
    int i;

    for (i = 0;i < HASHSIZE;i++)
    {
        val_flag[i] = (HASHSIZE+1);//清标致位

    }
}

//哈希函数，从数据中抽出某个成员用于哈希值的计算

unsigned int hash(char *s)
{
    unsigned int hashval;
    int i = 0;

    for (hashval = 0; *s != '\0'; s++)
        hashval = *s + 31 * hashval;
    hashval = hashval % HASHSIZE; //计算下标

    while ((val_flag[hashval] != (HASHSIZE+1)) && (i<32))
    {
        i++;
        hashval = (hashval + i)%HASHSIZE;    //冲突处理，存储单元(下标)偏移

    }
    if (i<HASHSIZE)
    {
        printf("\n元素下标(%d): 冲突次数： %d -- ",hashval,i);
        val_flag[hashval] = hashval; //表示该单元被占用

        return hashval;
    }
    return -1;
}

int main(void)
{
  int i, size, pos;

  size = sizeof(keywords) / sizeof(keywords[0]);//计算关键字数量

  //将数据存入哈希表

  ClearFlag();
  for(i = 0;i < size; i++)
     strcpy(keybuf[hash(keywords[i])],keywords[i]);

  //根据数据结构中某个成员作为索引值，查找对应数据

  ClearFlag();
  for(i = 0; i < size; i++)
  {
    pos = hash(keywords[i]);
    printf("%-10s: %-3d\n", keybuf[pos], pos);
  }

  return 0;
}