[译]C语言实现一个简易的Hash table(3)

徐建岗网络管理

2019-06-30

[译]C语言实现一个简易的Hash table(3)

上一章，我们讲了hash表的数据结构，并简单实现了hash表的初始化与删除操作，这一章我们会讲解Hash函数和实现算法，并手动实现一个Hash函数。

Hash函数

本教程中我们实现的Hash函数将会实现如下操作：

输入一个字符串，然后返回一个0到m(Hash表的大小)的数字
为一组平常的输入返回均匀的bucket索引。如果Hash函数不是均匀分布的，就会将多个记录插入到相同的bucket中，这就回提高冲突的几率，而这个冲突就会影响到我们的hash表的效率。

Hash算法

我们将会设计一个普通的字符串Hash函数，在伪代码中表示如下：

function hash(string, a, num_buckets):
    hash = 0
    string_len = length(string)
    for i = 0, 1, ..., string_len:
        hash += (a ** (string_len - (i+1))) * char_code(string[i])
    hash = hash % num_buckets
    return hash

这个Hash函数主要分为两步：

将字符串转为大整型
通过取余数mod m将整数的大小减小到固定范围

变量a是一个素数，并且要大于英文字母，我们正在散列ASCII字符串，其字母大小为128，因此我们应该选择大于此的素数。

char_code这个函数会返回字母对应的整数，使用的是ASCII中的字母。

如下使用这个Hash函数：

hash("cat", 151, 53)

// 函数拆解
hash = (151**2 * 99 + 151**1 * 97 + 151**0 * 116) % 53
hash = (2257299 + 14647 + 116) % 53
hash = (2272062) % 53
hash = 5

如果改变a我们会得到不同的结果：

hash("cat", 163, 53) = 3

代码实现

// hash_table.c
static int ht_hash(const char* s, const int a, const int m) {
    long hash = 0;
    const int len_s = strlen(s);
    for (int i = 0; i < len_s; i++) {
        hash += (long)pow(a, len_s - (i+1)) * s[i];
        hash = hash % m;
    }
    return (int)hash;
}

什么是冲突？

理想中的散列函数返回的结果都是均匀分布的，但是，对于任意一个散列函数，总会有一些输入经过散列后，得到相同的值。如果要找到这组输入，我们就需要测试大量的输入数据。

因为上面提到的有不好的输入存在，意味着所有输入都没有完美的散列函数。所以在设计散列函数时，针对预期输入，我们的散列函数需要表现最好。

不好的输入也存在安全问题，如果某个恶意用户向哈希表提供了一组冲突密钥，那么搜索这些密钥将比正常情况（O(1)）花费更长时间（O(n)）。这可以用作针对以哈希表为基础的系统（例如DNS和某些Web服务）的拒绝服务攻击。

上一章：Hash table数据结构
下一章：冲突处理

hash函数 c语言 hash table

徐建岗网络管理

0 关注 0 粉丝 0 动态

相关推荐

php hash算法实现memcached分布式

Mysql是通过SQL语句管理“磁盘中”的文件，Memcached是通过客户端发送的命令管理“内存中缓存”的数据。需要缓存的对象或数据以 key/value 对的形式保存在服务器端，key的值通过hash进行转换，把value传递到对应的具体的某台服务器上

jkzyx 2020-06-29

mysql对于很长的字符列的索引方案

SELECT * FROM urlT WHERE url_hash = hash AND url = ‘www.blog.csdn.net‘;

TNTMysql工程师 2020-06-16

加解密原理

密钥，一般就是一个字符串或数字，在加密或者解密时传递给加密或解密算法，以使算法能够正确对明文加密或者对密文解密。对称加密算法的特点是加密使用的密钥和解密使用的密钥是相同的。因此对称加密算法要保证安全性的话，密钥自然要做好保密，只能让使用的人知道，不能对外公

natloc 2020-06-10

webpack 中，hash、chunkhash、contenthash 的区别是什么？

Webpack 有非常多的概念，很多名词长得都差不多。我把这些分散在文档和教程里的内容总结起来，写了一份 webpack 中的易混淆知识点，目前看是全网独一份，大家可以加个收藏，方便以后检索和学习。首先来个背景介绍，哈希一般是结合 CDN 缓存来使用的。如

SelinaChan 2020-05-18

python3 一致性hash算法

client_ip_list = ["113.88.97.173", "106.11.154.33", "207.46.13.149","42.156.137.120", &q

ladysosoli 2020-01-19

9.算法之顺序、二分、hash查找

我们在这里将仅关注成员是否存在这个问题。这个过程产实现的搜索即为顺序查找。　　- 顺序查找原理剖析：从列表中的第一个元素开始，我们按照基本的顺序排序，简单地从一个元素移动到另一个元素，直到找到我们正在寻找的元素或遍历完整个列表。在顺序查找中，当我们与第一个

Happyunlimited 2020-01-12

布隆过滤器(Bloom Filter)与Hash算法

　　Hash算法在应用中又称为指纹或者摘要算法,是一种将任意长度的明文串映射为较短的数据串的算法，目前的Hash算法主要是MD5系列算法与SHA系统算法。但是将映射的Hash值限制在数组大小的范围内，会造成大量的Hash冲突，从而导致性能的急速下降，所以人

yedaoxiaodi 2020-01-08

HashMap源码分析

HashMap 主要用来存放键值对，它基于哈希表的Map接口实现，是常用的Java集合之一。JDK1.8 之前 HashMap 底层是数组和链表结合在一起使用也就是链表散列。所谓扰动函数指的就是 HashMap 的 hash 方法。使用 hash 方法也就

mbcsdn 2020-01-07

python hash

　　Hash，一般翻译做“散列”，也有直接音译为”哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，而不可能从散列值来唯

lixiaotao 2020-01-03

HashMap、lru、散列表

HashMap的数据结构：HashMap实际上是一个数组和链表的数据结构。底层就是一个数组结构，数组中的每一项又是一个链表。hashCode是一个对象的标识，Java中对象的hashCode是一个int类型值。发生碰撞后会把相同hashcode的对象放到同

hanyujianke 2020-01-01

MySQL 索引结构 hash 有序数组

Hash本身是一种函数，又被称为散列函数。不过在有大量重复值得情况下，hash索引的效率极低，因为要频发地处理Hash冲突。对于Hash索引的联合索引，是将联合索引字段值相捆绑然后计算Hash值的，无法利用对单一字段的Hash值。当字段的重复度低，而且经常

wangshuangbao 2020-07-05

面试必看！凭借着这份 MySQL 高频面试题，我拿到了京东，字节的offer！

本文主要受众为开发人员,所以不涉及到MySQL的服务部署等操作,且内容较多,大家准备好耐心和瓜子矿泉水.前一阵系统的学习了一下MySQL,也有一些实际操作经验,偶然看到一篇和MySQL相关的面试文章,发现其中的一些问题自己也回答不好,虽然知识点大部分都知道

weiguoxin 2020-06-11

PHP弱类型hash比较缺陷

0e在比较的时候会将其视作为科学计数法，所以无论0e后面是什么，0的多少次方还是0。　　$a = $_POST[‘pwd‘];在已知管理员密码md5值是以0e开头的前提下,观察代码逻辑,如果是使用"=="判断即可直接传入md5值是0e开

JF0 2020-01-24

一致性哈希算法 CARP 原理解析, 附 Golang 实现

在后端服务开发的过程中, 遇到了这样一个问题: 需要在 mysql 前面部署 redis 做一层缓存, 要求 redis 是集群部署, 并且每台 redis 节点只缓存总数据量的 1/N, N 为 redis 的个数.所以必须想一种办法来应对上述的情况,

码墨 2020-01-18

字典的key都可以是什么

一个对象能不能作为字典的key，就取决于其有没有__hash__方法。所以所有python自带类型中，除了list、dict、set和内部至少带有上述三种类型之一的tuple之外，其余的对象都能当key。比如数值/字符串/完全不可变的元祖/函数/类/方法/

chouliqingke 2019-12-17

Hash算法：双重散列

　　双重散列是线性开型寻址散列中的冲突解决技术。双重散列使用在发生冲突时将第二个散列函数应用于键的想法。　　来进行双哈希处理。hash1() 和 hash2() 是哈希函数，而 TABLE_SIZE是哈希表的大小。当发生碰撞时，我们通过重复增加步长i 来

Happyunlimited 2019-12-08

mysql 一些小问题

关于MySQL的索引,曾经进行过一次总结,文章链接在这里 Mysql索引原理及其优化.索引是一种数据结构,可以帮助我们快速的进行数据的查找.索引的数据结构和具体存储引擎的实现有关, 在MySQL中使用较多的索引有Hash索引,B+树索引等,而我们经常使用的

翡翠谷 2019-11-11

这可能是史上最全的MySQL面试题分享了，看完直接收藏

前言本文主要受众为开发人员,所以不涉及到MySQL的服务部署等操作,且内容较多,大家准备好耐心和瓜子矿泉水.前一阵系统的学习了一下MySQL,也有一些实际操作经验,偶然看到一篇和MySQL相关的面试文章,发现其中的一些问题自己也回答不好,虽然知识点大部分都

AwesomeQA 2019-08-07

100道MySQL常见面试题总结

本文主要受众为开发人员,所以不涉及到MySQL的服务部署等操作,且内容较多,大家准备好耐心和瓜子矿泉水.前一阵系统的学习了一下MySQL,也有一些实际操作经验,偶然看到一篇和MySQL相关的面试文章,发现其中的一些问题自己也回答不好,虽然知识点大部分都知道

MYSQL轻松学 2019-08-06

一致性Hash算法

一致性Hash算法在1997年由麻省理工学院提出的一种分布式哈希实现算法，设计目标是为了解决因特网中的热点问题，初衷和CARP十分相似。一致性Hash修正了CARP使用的简单哈希算法带来的问题，使得分布式哈希可以在P2P环境中真正得到应用。很多哈希算法都能

KDF000 2019-10-18

徐建岗网络管理

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号