首页 > Golang > Go教程

浅析go中的map数据结构字典

来源：脚本之家

时间：2023-01-01 10:42:09 267浏览收藏

来到golang学习网的大家，相信都是编程学习爱好者，希望在这里学习Golang相关编程知识。下面本篇文章就来带大家聊聊《浅析go中的map数据结构字典》，介绍一下数据结构、gomap，希望对大家的知识积累有所帮助，助力实战开发！

1. map的使用

　　golang中的map是一种数据类型，将键与值绑定到一起，底层是用哈希表实现的，可以快速的通过键找到对应的值。

　　类型表示：map[keyType][valueType] key一定要是可比较的类型（可以理解为支持==的操作），value可以是任意类型。

　　初始化：map只能使用make来初始化，声明的时候默认为一个为nil的map，此时进行取值，返回的是对应类型的零值（不存在也是返回零值）。添加元素无任何意义，还会导致运行时错误。向未初始化的map赋值引起 panic: assign to entry in nil map。

package main
import ( 
 "fmt"
)
// bool 的零值是false
var m map[int]bool 
a, ok := m[1]
fmt.Println(a, ok) // false false
// int 的零值是0
var m map[int]int 
a, ok := m[1]
fmt.Println(a, ok) // 0 false
func main() { 
 var agemap[string]int
 if age== nil {
 fmt.Println("map is nil.")
 age= make(map[string]int)
 }
}

　　清空map：对于一个有一定数据的集合 exp，清空的办法就是再次初始化: exp = make(map[string]int)，如果后期不再使用该map，则可以直接：exp= nil 即可，但是如果还需要重复使用，则必须进行make初始化，否则无法为nil的map添加任何内容。

　　属性：与切片一样，map 是引用类型。当一个 map 赋值给一个新的变量，它们都指向同一个内部数据结构。因此改变其中一个也会反映到另一个。作为形参或返回参数的时候，传递的是地址的拷贝，扩容时也不会改变这个地址。

func main() {
 exp := map[string]int{
 "steve": 20,
 "jamie": 80,
 }
 fmt.Println("Ori exp", age)
 newexp:= exp
 newexp["steve"] = 18
 fmt.Println("exp changed", exp)
}
//Ori age map[steve:20 jamie:80]
//age changed map[steve:18 jamie:80]

　　遍历map：map本身是无序的，在遍历的时候并不会按照你传入的顺序，进行传出。

//正常遍历：
for k, v := range exp { 
 fmt.Println(k, v)
}
//有序遍历
import "sort"
var keys []string
// 把key单独抽取出来，放在数组中
for k, _ := range exp {
 keys = append(keys, k)
}
// 进行数组的排序
sort.Strings(keys)
// 遍历数组就是有序的了
for _, k := range keys {
 fmt.Println(k, m[k])
}

2.map的结构

　　Go中的map在可以在 $GOROOT/src/runtime/map.go找到它的实现。哈希表的数据结构中一些关键的域如下所示：

type hmap struct {
 count int //元素个数
 flags uint8 
 B  uint8 //扩容常量
 noverflow uint16 //溢出 bucket 个数
 hash0 uint32 //hash 种子
 buckets unsafe.Pointer //bucket 数组指针
 oldbuckets unsafe.Pointer //扩容时旧的buckets 数组指针
 nevacuate uintptr //扩容搬迁进度
 extra *mapextra //记录溢出相关
}
type bmap struct {
 tophash [bucketCnt]uint8 
 // Followed by bucketCnt keys 
 //and then bucketan Cnt values 
 // Followed by overflow pointer.
}

　　说明：每个map的底层都是hmap结构体，它是由若干个描述hmap结构体的元素、数组指针、extra等组成，buckets数组指针指向由若干个bucket组成的数组，其每个bucket里存放的是key-value数据(通常是8个)和overflow字段（指向下一个bmap），每个key插入时会根据hash算法归到同一个bucket中，当一个bucket中的元素超过8个的时候，hmap会使用extra中的overflow来扩展存储key。

　　图中len 就是当前map的元素个数，也就是len()返回的值。也是结构体中hmap.count的值。bucket array是指数组指针，指向bucket数组。hash seed 哈希种子。overflow指向下一个bucket。

map的底层主要是由三个结构构成:

hmap --- map的最外层的数据结构，包括了map的各种基础信息、如大小、bucket，一个大的结构体。 mapextra --- 记录map的额外信息，hmap结构体里的extra指针指向的结构，例如overflow bucket。 bmap --- 代表bucket，每一个bucket最多放8个kv，最后由一个overflow字段指向下一个bmap，注意key、value、overflow字段都不显示定义，而是通过maptype计算偏移获取的。

　　mapextra的结构如下

 // mapextra holds fields that are not present on all maps.
type mapextra struct {
 // If both key and value do not contain pointers and are inline, then we mark bucket
 // type as containing no pointers. This avoids scanning such maps.
 // However, bmap.overflow is a pointer. In order to keep overflow buckets
 // alive, we store pointers to all overflow buckets in hmap.extra.overflow and hmap.extra.oldoverflow.
 // overflow and oldoverflow are only used if key and value do not contain pointers.
 // overflow contains overflow buckets for hmap.buckets.
 // oldoverflow contains overflow buckets for hmap.oldbuckets.
 // The indirection allows to store a pointer to the slice in hiter.
 overflow *[]*bmap
 oldoverflow *[]*bmap

 // nextOverflow holds a pointer to a free overflow bucket.
 nextOverflow *bmap
}

　　其中hmap.extra.nextOverflow指向的是预分配的overflow bucket，预分配的用完了那么值就变成nil。

　　bmap的详细结构如下

　　在map中出现哈希冲突时，首先以bmap为最小粒度挂载，一个bmap累积8个kv之后，就会申请一个新的bmap（overflow bucket）挂在这个bmap的后面形成链表，优先用预分配的overflow bucket，如果预分配的用完了，那么就malloc一个挂上去。这样减少对象数量，减轻管理内存的负担，利于gc。注意golang的map不会shrink，内存只会越用越多，overflow bucket中的key全删了也不会释放。　　bmap中所有key存在一块，所有value存在一块，这样做方便内存对齐。当key大于128字节时，bucket的key字段存储的会是指针，指向key的实际内容；value也是一样。

　　hash值的高8位存储在bucket中的tophash字段。每个桶最多放8个kv对，所以tophash类型是数组[8]uint8。把高八位存储起来，这样不用完整比较key就能过滤掉不符合的key，加快查询速度。实际上当hash值的高八位小于常量minTopHash时，会加上minTopHash，区间[0, minTophash)的值用于特殊标记。查找key时，计算hash值，用hash值的高八位在tophash中查找，有tophash相等的，再去比较key值是否相同。

 type typeAlg struct {
 // function for hashing objects of this type
 // (ptr to object, seed) -> hash
 hash func(unsafe.Pointer, uintptr) uintptr
 // function for comparing objects of this type
 // (ptr to object A, ptr to object B) -> ==?
 equal func(unsafe.Pointer, unsafe.Pointer) bool

// tophash calculates the tophash value for hash.
func tophash(hash uintptr) uint8 {
 top := uint8(hash >> (sys.PtrSize*8 - 8))
 if top 

<p></p>
<p>　　golang为每个类型定义了类型描述器_type，并实现了hashable类型的_type.alg.hash和_type.alg.equal，以支持map的范型，定义了这类key用什么hash函数、bucket的大小、怎么比较之类的，通过这个变量来实现范型。</p>
<p><span style="color: #ff0000"><strong>3.map的基本操作</strong></span></p>
<p>3.1map的创建</p>

<pre class="brush:plain;">
//makemap为make（map [k] v，hint）实现Go map创建。
//如果编译器已确定映射或第一个存储桶,可以在堆栈上创建，hmap或bucket可以为非nil。
//如果h！= nil，则可以直接在h中创建map。
//如果h.buckets！= nil，则指向的存储桶可以用作第一个存储桶。
func makemap(t *maptype, hint int, h *hmap) *hmap {
 if hint  int(maxSliceCap(t.bucket.size)) {
 hint = 0
 }
 // 初始化Hmap
 if h == nil {
 h = new(hmap)
 }
 h.hash0 = fastrand()
 // 查找将保存请求的元素数的size参数
 B := uint8(0)
 for overLoadFactor(hint, B) {
 B++
 }
 h.B = B
 // 分配初始哈希表
 // if B == 0, 稍后会延迟分配buckets字段（在mapassign中）
 //如果提示很大，则将内存清零可能需要一段时间。
 if h.B != 0 {
 var nextOverflow *bmap
 h.buckets, nextOverflow = makeBucketArray(t, h.B, nil)
 if nextOverflow != nil {
  h.extra = new(mapextra)
  h.extra.nextOverflow = nextOverflow
 }
 }
 return h
}

　　hint是一个启发值，启发初建map时创建多少个bucket，如果hint是0那么就先不分配bucket，lazy分配。大概流程就是初始化hmap结构体、设置一下hash seed、bucket数量、实际申请bucket、申请mapextra结构体之类的。　　申请buckets的过程：

// makeBucketArray初始化地图存储区的后备数组。
// 1 = 4 {
 //加上估计的溢出桶数
 //插入元素的中位数
 //与此值b一起使用。
 nbuckets += bucketShift(b - 4)
 sz := t.bucket.size * nbuckets
 up := roundupsize(sz)
 if up != sz {
  nbuckets = up / t.bucket.size
 }
 }
 if dirtyalloc == nil {
 buckets = newarray(t.bucket, int(nbuckets))
 } else {
 // dirtyalloc先前是由上面的newarray（t.bucket，int（nbuckets）），但不能为空。
 buckets = dirtyalloc
 size := t.bucket.size * nbuckets
 if t.bucket.kind&kindNoPointers == 0 {
  memclrHasPointers(buckets, size)
 } else {
  memclrNoHeapPointers(buckets, size)
 }
 }

 if base != nbuckets {
 //我们预先分配了一些溢出桶。
 //为了将跟踪这些溢出桶的开销降至最低，我们使用的约定是，如果预分配的溢出存储桶发生了溢出指针为零，则通过碰撞指针还有更多可用空间。
 //对于最后一个溢出存储区，我们需要一个安全的非nil指针；只是用bucket。
 nextOverflow = (*bmap)(add(buckets, base*uintptr(t.bucketsize)))
 last := (*bmap)(add(buckets, (nbuckets-1)*uintptr(t.bucketsize)))
 last.setoverflow(t, (*bmap)(buckets))
 }
 return buckets, nextOverflow
}

　　默认创建2b个bucket，如果b大于等于4，那么就预先额外创建一些overflow bucket。除了最后一个overflow bucket，其余overflow bucket的overflow指针都是nil，最后一个overflow bucket的overflow指针指向bucket数组第一个元素，作为哨兵，说明到了到结尾了。

3.2 查询操作

// mapaccess1返回指向h [key]的指针。从不返回nil，而是 如果值类型为零，它将返回对零对象的引用,该键不在map中。
 //注意：返回的指针可能会使整个map保持活动状态，因此请不要坚持很长时间。
 func mapaccess1(t *maptype, h *hmap, key unsafe.Pointer) unsafe.Pointer {
 if raceenabled && h != nil { //raceenabled是否启用数据竞争检测。
 callerpc := getcallerpc()
 pc := funcPC(mapaccess1)
 racereadpc(unsafe.Pointer(h), callerpc, pc)
 raceReadObjectPC(t.key, key, callerpc, pc)
 }
 if msanenabled && h != nil {
 msanread(key, t.key.size)
 }
 if h == nil || h.count == 0 {
 return unsafe.Pointer(&zeroVal[0])
 } 
 // 并发访问检查
 if h.flags&hashWriting != 0 {
 throw("concurrent map read and map write")
 }
 // 计算key的hash值
 alg := t.key.alg
 hash := alg.hash(key, uintptr(h.hash0)) // alg.hash
 // hash值对m取余数得到对应的bucket
 m := uintptr(1)>= 1
 }
 oldb := (*bmap)(add(c, (hash&m)*uintptr(t.bucketsize)))
 if !evacuated(oldb) {
  b = oldb
 }
 }
 // 计算tophash，取高8位
 top := uint8(hash >> (sys.PtrSize*8 - 8))
 for {
 for i := uintptr(0); i 

<p>先定位出bucket，如果正在扩容，并且这个bucket还没搬到新的hash表中，那么就从老的hash表中查找。</p>
<p>在bucket中进行顺序查找，使用高八位进行快速过滤，高八位相等，再比较key是否相等，找到就返回value。如果当前bucket找不到，就往下找overflow bucket，都没有就返回零值。</p>
<p>　　访问的时候，并不进行扩容的数据搬迁。并且并发有写操作时抛异常。</p>
<p>　　注意，t.bucketsize并不是bmap的size，而是bmap加上存储key、value、overflow指针，所以查找bucket的时候时候用的不是bmap的szie。</p>
<p style="text-align: center"><img src="/uploads/20230101/167254111563b0f3bbd224f.jpg" alt=""></p>
<p><strong>3.3 更新/插入过程</strong></p>
<p></p>

<pre class="brush:plain;">
// 与mapaccess类似，但是如果map中不存在密钥，则为该密钥分配一个插槽
func mapassign(t *maptype, h *hmap, key unsafe.Pointer) unsafe.Pointer {
 ...
 //设置hashWriting调用alg.hash，因为alg.hash可能出现紧急情况后，在这种情况下，我们实际上并没有进行写操作.
 h.flags |= hashWriting
 if h.buckets == nil {
 h.buckets = newobject(t.bucket) // newarray(t.bucket, 1)
 }
again:
 bucket := hash & bucketMask(h.B)
 if h.growing() {
 growWork(t, h, bucket)
 }
 b := (*bmap)(unsafe.Pointer(uintptr(h.buckets) + bucket*uintptr(t.bucketsize)))
 top := tophash(hash)
 var inserti *uint8
 var insertk unsafe.Pointer
 var val unsafe.Pointer
 for {
 for i := uintptr(0); i 

<p>hash表如果正在扩容，并且这次要操作的bucket还没搬到新hash表中，那么先进行搬迁（扩容细节下面细说）。</p>
<p>在buck中寻找key，同时记录下第一个空位置，如果找不到，那么就在空位置中插入数据；如果找到了，那么就更新对应的value；</p>
<p>找不到key就看下需不需要扩容，需要扩容并且没有正在扩容，那么就进行扩容，然后回到第一步。</p>
<p>找不到key，不需要扩容，但是没有空slot，那么就分配一个overflow bucket挂在链表结尾，用新bucket的第一个slot放存放数据。</p>
<p>3.5 删除的过程</p>
<p></p>

<pre class="brush:plain;">
func mapdelete(t *maptype, h *hmap, key unsafe.Pointer) {
 ...
 // Set hashWriting after calling alg.hash, since alg.hash may panic,
 // in which case we have not actually done a write (delete).
 h.flags |= hashWriting
 bucket := hash & bucketMask(h.B)
 if h.growing() {
 growWork(t, h, bucket)
 }
 b := (*bmap)(add(h.buckets, bucket*uintptr(t.bucketsize)))
 top := tophash(hash)
search:
 for ; b != nil; b = b.overflow(t) {
 for i := uintptr(0); i 

<p>如果正在扩容，并且操作的bucket还没搬迁完，那么搬迁bucket。</p>
<p>找出对应的key，如果key、value是包含指针的那么会清理指针指向的内存，否则不会回收内存。</p>
<p>3.6 map的扩容</p>
<p>　　通过上面的过程我们知道了，插入、删除过程都会触发扩容，判断扩容的函数如下：</p>

<pre class="brush:java;">
// overLoadFactor 判断放置在1  bucketCnt && uintptr(count) > loadFactorNum*(bucketShift(B)/loadFactorDen) 
 //return 元素个数>8 && count>bucket数量*6.5,其中loadFactorNum是常量13，loadFactorDen是常量2,所以是6.5,bucket数量不算overflow bucket.
}
// tooManyOverflowBuckets 判断noverflow存储桶对于1  15 {
 B = 15
 }
 // 译器在这里看不到B = uint16(1)

<p>　　每次map进行更新或者新增的时候，会先通过以上函数判断一下load factor。来决定是否扩容。如果需要扩容，那么第一步需要做的，就是对hash表进行扩容：</p>
<p></p>

<pre class="brush:java;">
//仅对hash表进行扩容，这里不进行搬迁
func hashGrow(t *maptype, h *hmap) {
 // 如果达到负载系数，则增大尺寸。否则，溢出bucket过多，因此，保持相同数量的存储桶并横向“增长”。
 bigger := uint8(1)
 if !overLoadFactor(h.count+1, h.B) {
 bigger = 0
 h.flags |= sameSizeGrow
 }
 oldbuckets := h.buckets
 newbuckets, nextOverflow := makeBucketArray(t, h.B+bigger, nil)
 flags := h.flags &^ (iterator | oldIterator)
 if h.flags&iterator != 0 {
 flags |= oldIterator
 }
 // 提交增长（atomic wrt gc）
 h.B += bigger
 h.flags = flags
 h.oldbuckets = oldbuckets
 h.buckets = newbuckets
 h.nevacuate = 0
 h.noverflow = 0
 if h.extra != nil && h.extra.overflow != nil {
 // 将当前的溢出bucket提升到老一代。
 if h.extra.oldoverflow != nil {
  throw("oldoverflow is not nil")
 }
 h.extra.oldoverflow = h.extra.overflow
 h.extra.overflow = nil
 }
 if nextOverflow != nil {
 if h.extra == nil {
  h.extra = new(mapextra)
 }
 h.extra.nextOverflow = nextOverflow
 }
 //哈希表数据的实际复制是增量完成的，通过growWork（）和evacuate（）。
}

　　如果之前为2^n ，那么下一次扩容是2^(n+1),每次扩容都是之前的两倍。扩容后需要重新计算每一项在hash中的位置，新表为老的两倍，此时前文的oldbacket用上了，用来存同时存在的两个新旧map，等数据迁移完毕就可以释放oldbacket了。扩容的函数hashGrow其实仅仅是进行一些空间分配，字段的初始化，实际的搬迁操作是在growWork函数中：

func growWork(t *maptype, h *hmap, bucket uintptr) {
 //确保我们迁移了了对应的oldbucket，到我们将要使用的存储桶。
 evacuate(t, h, bucket&h.oldbucketmask())
 // 疏散一个旧桶以在生长上取得进展
 if h.growing() {
 evacuate(t, h, h.nevacuate)
 }
}

　　evacuate是进行具体搬迁某个bucket的函数，可以看出growWork会搬迁两个bucket，一个是入参bucket；另一个是h.nevacuate。这个nevacuate是一个顺序累加的值。可以想想如果每次仅仅搬迁进行写操作（赋值/删除）的bucket，那么有可能某些bucket就是一直没有机会访问到，那么扩容就一直没法完成，总是在扩容中的状态，因此会额外进行一次顺序迁移，理论上，有N个old bucket，最多N次写操作，那么必定会搬迁完。在advanceEvacuationMark中进行nevacuate的累加，遇到已经迁移的bucket会继续累加，一次最多加1024。　　优点：均摊扩容时间，一定程度上缩短了扩容时间（和gc的引用计数法类似，都是均摊）overLoadFactor函数中有一个常量6.5（loadFactorNum/loadFactorDen）来进行影响扩容时机。这个值的来源是测试取中的结果。

4.map的并发安全性

　　map的并发操作不是安全的。并发起两个goroutine，分别对map进行数据的增加：

func main() {
 test := map[int]int {1:1}
 go func() {
 i := 0
 for i 

<p>　　并发读写map结构的数据引起了错误。</p>
<p>　　解决方案1：加锁</p>
<p></p>

<pre class="brush:java;">
func main() {
 test := map[int]int {1:1}
 var s sync.RWMutex
 go func() {
 i := 0
 for i 

<p>　　特点：实现简单粗暴，好理解。但是锁的粒度为整个map，存在优化空间。适用场景：all。</p>
<p>　　解决方案2：sync.Map</p>

<pre class="brush:java;">
func main() {
 test := sync.Map{}
 test.Store(1, 1)
 go func() {
 i := 0
 for i 

<p>　　sync.Map的原理：sync.Map里头有两个map一个是专门用于读的read map，另一个是才是提供读写的dirty map；优先读read map，若不存在则加锁穿透读dirty map，同时记录一个未从read map读到的计数，当计数到达一定值，就将read map用dirty map进行覆盖。特点：官方出品，通过空间换时间的方式，读写分离；不适用于大量写的场景，会导致read map读不到数据而进一步加锁读取，同时dirty map也会一直晋升为read map，整体性能较差。适用场景：大量读，少量写。</p>
<p>　　解决方案3：分段锁</p>
<p>　　这也是数据库常用的方法，分段锁每一个读写锁保护一段区间。sync.Map其实也是相当于表级锁，只不过多读写分了两个map，本质还是一样的。</p>
<p>　　优化方向：将锁的粒度尽可能降低来提高运行速度。思路：对一个大map进行hash，其内部是n个小map，根据key来来hash确定在具体的那个小map中，这样加锁的粒度就变成1/n了。例如</p>
<p><span style="color: #ff0000"><strong>5.map的GC内存回收</strong></span></p>
<p>　　golang里的map是只增不减的一种数组结构，他只会在删除的时候进行打标记说明该内存空间已经empty了，不会回收。</p>

<pre class="brush:java;">
var intMap map[int]int
 func main() {
 printMemStats("初始化")
 // 添加1w个map值
 intMap = make(map[int]int, 10000)
 for i := 0; i 

<p>　　可以看到delete是不会真正的把map释放的，所以要回收map还是需要设为nil</p>
<p><span style="color: #ff0000"><strong>总结</strong></span></p>
<p>以上所述是小编给大家介绍的go中的map数据结构字典，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对golang学习网网站的支持！如果你觉得本文对你有帮助，欢迎转载，烦请注明出处，谢谢！</p><p>以上就是《浅析go中的map数据结构字典》的详细内容，更多关于golang的资料请关注golang学习网公众号！</p>

golang 数据结构 gomap

声明：本文转载于：脚本之家如有侵犯，请联系study_golang@163.com删除

资料下载

编程学习资料下载

精选编程（Golang、Python、Java、C++、JavaScript等）教程、电子书与示例源码，一键打包本地下载学习。

立即下载