您当前的位置：首页 > 电脑百科 > 程序开发 > 算法

什么是雪花算法？啥原理？附Java实现！

时间：2023-03-09 14:29:21 来源：CSDN 作者：雨夜青草

+ 加入收藏

SnowFlake 算法，是 Twitter 开源的分布式 ID 生成算法。

其核心思想就是：使用一个 64 bit 的 long 型的数字作为全局唯一 ID。在分布式系统中的应用十分广泛，且 ID 引入了时间戳，基本上保持自增的，后面的代码中有详细的注解。

这 64 个 bit 中，其中 1 个 bit 是不用的，然后用其中的 41 bit 作为毫秒数，用 10 bit 作为工作机器 ID，12 bit 作为序列号。

给大家举个例子吧，比如下面那个 64 bit 的 long 型数字：

第一个部分是 1 个 bit：0，这个是无意义的。
第二个部分是 41 个 bit：表示的是时间戳。
第三个部分是 5 个 bit：表示的是机房 ID，10001。
第四个部分是 5 个 bit：表示的是机器 ID，1 1001。
第五个部分是 12 个 bit：表示的序号，就是某个机房某台机器上这一毫秒内同时生成的 id 的序号，0000 00000000。

1 bit：是不用的，为啥呢？

因为二进制里第一个 bit 为如果是 1，那么都是负数，但是我们生成的 ID 都是正数，所以第一个 bit 统一都是 0。

41 bit：表示的是时间戳，单位是毫秒。

41 bit 可以表示的数字多达 2^41 - 1，也就是可以表示 2 ^ 41 - 1 个毫秒值，换算成年就是表示 69 年的时间。

10 bit：记录工作机器 ID。

代表的是这个服务最多可以部署在 2^10 台机器上，也就是 1024 台机器。

但是 10 bit 里 5 个 bit 代表机房 ID，5 个 bit 代表机器 ID。意思就是最多代表 2 ^ 5 个机房（32 个机房），每个机房里可以代表 2 ^ 5 个机器（32 台机器），也可以根据自己公司的实际情况确定。

12 bit：这个是用来记录同一个毫秒内产生的不同 ID。

12 bit 可以代表的最大正整数是 2 ^ 12 - 1 = 4096，也就是说可以用这个 12 bit 代表的数字来区分同一个毫秒内的 4096 个不同的 ID。

简单来说，你的某个服务假设要生成一个全局唯一 ID，那么就可以发送一个请求给部署了 SnowFlake 算法的系统，由这个 SnowFlake 算法系统来生成唯一 ID。

这个 SnowFlake 算法系统首先肯定是知道自己所在的机房和机器的，比如机房 ID = 17，机器 ID = 12。

接着 SnowFlake 算法系统接收到这个请求之后，首先就会用二进制位运算的方式生成一个 64 bit 的 long 型 ID，64 个 bit 中的第一个 bit 是无意义的。

接着 41 个 bit，就可以用当前时间戳（单位到毫秒），然后接着 5 个 bit 设置上这个机房 ID，还有 5 个 bit 设置上机器 ID。

最后再判断一下，当前这台机房的这台机器上这一毫秒内，这是第几个请求，给这次生成 ID 的请求累加一个序号，作为最后的 12 个 bit。

最终一个 64 个 bit 的 ID 就出来了，类似于：

这个算法可以保证，一个机房的一台机器上，在同一毫秒内生成了一个唯一的 ID。可能一个毫秒内会生成多个 ID，但是有最后 12 个 bit 的序号来区分开来。

下面我们简单看看这个 SnowFlake 算法的一个代码实现，这就是个示例，大家如果理解了这个意思之后，以后可以自己尝试改造这个算法。JAVA进阶系列路线：https://www.yoodb.com/

总之就是用一个 64 bit 的数字中各个 bit 位来设置不同的标志位，区分每一个 ID。

SnowFlake 算法的实现代码如下：

public class IdWorker {

//因为二进制里第一个 bit 为如果是 1，那么都是负数，但是我们生成的 id 都是正数，所以第一个 bit 统一都是 0。

//机器ID 2进制5位 32位减掉1位 31个 private long workerId; //机房ID 2进制5位 32位减掉1位 31个 private long datacenterId; //代表一毫秒内生成的多个id的最新序号 12位 4096 -1 = 4095 个 private long sequence; //设置一个时间初始值 2^41 - 1 差不多可以用69年 private long twepoch = 1585644268888L; //5位的机器id private long workerIdBits = 5L; //5位的机房id private long datacenterIdBits = 5L; //每毫秒内产生的id数 2 的 12次方 private long sequenceBits = 12L; // 这个是二进制运算，就是5 bit最多只能有31个数字，也就是说机器id最多只能是32以内 private long maxWorkerId = -1L ^ (-1L << workerIdBits); // 这个是一个意思，就是5 bit最多只能有31个数字，机房id最多只能是32以内 private long maxDatacenterId = -1L ^ (-1L << datacenterIdBits);

private long workerIdShift = sequenceBits; private long datacenterIdShift = sequenceBits + workerIdBits; private long timestampLeftShift = sequenceBits + workerIdBits + datacenterIdBits; private long sequenceMask = -1L ^ (-1L << sequenceBits); //记录产生时间毫秒数，判断是否是同1毫秒 private long lastTimestamp = -1L; public long getWorkerId(){ return workerId; } public long getDatacenterId() { return datacenterId; } public long getTimestamp() { return System.currentTimeMillis(); }

public IdWorker(long workerId, long datacenterId, long sequence) {

// 检查机房id和机器id是否超过31 不能小于0 if (workerId > maxWorkerId || workerId < 0) { throw new IllegalArgumentException( String.format("worker Id can't be greater than %d or less than 0",maxWorkerId)); }

if (datacenterId > maxDatacenterId || datacenterId < 0) {

throw new IllegalArgumentException( String.format("datacenter Id can't be greater than %d or less than 0",maxDatacenterId)); } this.workerId = workerId; this.datacenterId = datacenterId; this.sequence = sequence; }

// 这个是核心方法，通过调用nextId()方法，让当前这台机器上的snowflake算法程序生成一个全局唯一的id public synchronized long nextId() { // 这儿就是获取当前时间戳，单位是毫秒 long timestamp = timeGen(); if (timestamp < lastTimestamp) {

System.err.printf( "clock is moving backwards. Rejecting requests until %d.", lastTimestamp); throw new RuntimeException( String.format("Clock moved backwards. Refusing to generate id for %d milliseconds", lastTimestamp - timestamp)); }

// 下面是说假设在同一个毫秒内，又发送了一个请求生成一个id // 这个时候就得把seqence序号给递增1，最多就是4096 if (lastTimestamp == timestamp) {

// 这个意思是说一个毫秒内最多只能有4096个数字，无论你传递多少进来， //这个位运算保证始终就是在4096这个范围内，避免你自己传递个sequence超过了4096这个范围 sequence = (sequence + 1) & sequenceMask; //当某一毫秒的时间，产生的id数超过4095，系统会进入等待，直到下一毫秒，系统继续产生ID if (sequence == 0) { timestamp = tilNextMillis(lastTimestamp); }

} else { sequence = 0; } // 这儿记录一下最近一次生成id的时间戳，单位是毫秒 lastTimestamp = timestamp; // 这儿就是最核心的二进制位运算操作，生成一个64bit的id // 先将当前时间戳左移，放到41 bit那儿；将机房id左移放到5 bit那儿；将机器id左移放到5 bit那儿；将序号放最后12 bit // 最后拼接起来成一个64 bit的二进制数字，转换成10进制就是个long型 return ((timestamp - twepoch) << timestampLeftShift) | (datacenterId << datacenterIdShift) | (workerId << workerIdShift) | sequence; }

/** * 当某一毫秒的时间，产生的id数超过4095，系统会进入等待，直到下一毫秒，系统继续产生ID * @param lastTimestamp * @return */ private long tilNextMillis(long lastTimestamp) {

long timestamp = timeGen();

while (timestamp <= lastTimestamp) { timestamp = timeGen(); } return timestamp; } //获取当前时间戳 private long timeGen(){ return System.currentTimeMillis(); }

/** * mAIn 测试类 * @param args */ public static void main(String[] args) { System.out.println(1&4596); System.out.println(2&4596); System.out.println(6&4596); System.out.println(6&4596); System.out.println(6&4596); System.out.println(6&4596); // IdWorker worker = new IdWorker(1,1,1); // for (int i = 0; i < 22; i++) { // System.out.println(worker.nextId()); // } } }

SnowFlake 算法的优点：

高性能高可用：生成时不依赖于数据库，完全在内存中生成。
容量大：每秒钟能生成数百万的自增 ID。
ID 自增：存入数据库中，索引效率高。

SnowFlake 算法的缺点：

依赖与系统时间的一致性，如果系统时间被回调，或者改变，可能会造成 ID 冲突或者重复。

实际中我们的机房并没有那么多，我们可以改进改算法，将 10bit 的机器 ID 优化，成业务表或者和我们系统相关的业务。

作者：雨夜青草 https://blog.csdn.NET/lq18050010830/article/details/89845790

Tags：雪花算法点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

雪花算法详解与Java实现：分布式唯一ID生成原理

SnowFlake 算法，是 Twitter 开源的分布式 ID 生成算法。其核心思想就是：使用一个 64 bit 的 long 型的数字作为全局唯一 ID。在分布式系统中的应用十分广泛，且 ID 引入了时间戳...【详细内容】

2024-02-03　　Search: 雪花算法点击:(50)　　评论:(0)　　加入收藏

聊一聊雪花算法与分布式ID生成

生成全局唯一ID的雪花算法原理雪花算法是一种用于生成全局唯一ID的算法，最初由Twitter开发，用于解决分布式系统中生成ID的问题。其核心思想是将一个64位的长整型ID划分成多个...【详细内容】

2023-12-12　　Search: 雪花算法点击:(134)　　评论:(0)　　加入收藏

你可能听说过雪花算法

雪花算法介绍雪花算法（Snowflake）是一种分布式唯一ID生成算法，用于生成全局唯一的ID。它的设计目标是在分布式系统中生成ID，保证ID的唯一性、有序性和趋势递增。雪花算法的核心...【详细内容】

2023-11-10　　Search: 雪花算法点击:(202)　　评论:(0)　　加入收藏

什么是雪花算法？啥原理？附Java实现！

2023-03-09　　Search: 雪花算法点击:(148)　　评论:(0)　　加入收藏

记一次“雪花算法”造成的生产事故的排查记录

本文主要内容如下：前言最近生产环境遇到一个问题：现象：创建工单、订单等地方，全都创建数据失败。初步排查：报错信息为duplicate key，意思是保存数据的时候，报主键 id 重复，而这些...【详细内容】

2022-11-15　　Search: 雪花算法点击:(201)　　评论:(0)　　加入收藏

雪花算法

雪花算法SnowFlake 算法，是 Twitter 开源的分布式 id 生成算法。其核心思想就是：使用一个 64 bit 的 long 型的数字作为全局唯一 id。在分布式系统中的应用十分广泛，且ID 引入...【详细内容】

2022-08-16　　Search: 雪花算法点击:(667)　　评论:(0)　　加入收藏

面试官：讲讲雪花算法，越详细越好

前面文章在谈论分布式唯一ID生成的时候，有提到雪花算法，这一次，我们详细点讲解，只讲它。SnowFlake算法据国家大气研究中心的查尔斯·奈特称，一般的雪花大约由10^19个水分子...【详细内容】

2021-11-17　　Search: 雪花算法点击:(329)　　评论:(0)　　加入收藏

聊聊大厂都在用的雪花算法

原文出自：公众号盼盼编程原文链接： https://mp.weixin.qq.com/s/rz7l1yfZvPtXv74dOYyKEA前言以前用rand和srand生成过伪随机数，伪随机数的序列是固定的，今天学习生成真正的随机...【详细内容】

2021-08-26　　Search: 雪花算法点击:(459)　　评论:(0)　　加入收藏

JPA自定义ID生成器，雪花算法实现代码分享

本文分享下Spring boot项目下使用JPA操作数据库时关于ID生成器的相关实现代码。在JPA中一个数据表必须要有主键，主键类型一般是推荐使用Long类型，那么在分布式微服务下需要保...【详细内容】

2021-08-17　　Search: 雪花算法点击:(1782)　　评论:(0)　　加入收藏

分布式ID生成--雪花算法

导读：唯一ID可以标识数据的唯一性，在分布式系统中生成唯一ID的方案有很多，常见的方式大概有以下三种依赖数据库，使用如MySQL自增列或Oracle序列等。 UUID随机数 snowflake雪花...【详细内容】

2019-09-05　　Search: 雪花算法点击:(972)　　评论:(0)　　加入收藏

▌简易百科推荐

小红书、视频号、抖音流量算法解析，干货满满，值得一看！

咱们中国现在可不是一般的牛！网上的网友已经破了十个亿啦！到了这个互联网的新时代，谁有更多的人流量，谁就能赢得更多的掌声哦~抖音、小红书、、视频号，是很多品牌必争的流量洼地...【详细内容】

2024-02-23　　二手车小胖说　　　　Tags:流量算法　点击:(13)　　评论:(0)　　加入收藏

雪花算法详解与Java实现：分布式唯一ID生成原理

2024-02-03　　一安未来　　微信公众号　　Tags:雪花算法　点击:(50)　　评论:(0)　　加入收藏

程序开发中常用的十种算法，你用过几种？

当编写程序时，了解和使用不同的算法对解决问题至关重要。以下是C#中常用的10种算法，每个算法都伴随着示例代码和详细说明。1. 冒泡排序 (Bubble Sort):冒泡排序是一种简单的比...【详细内容】

2024-01-17　　架构师老卢　　今日头条　　Tags:算法　点击:(44)　　评论:(0)　　加入收藏

百度推荐排序技术的思考与实践

本文将分享百度在推荐排序方面的思考与实践。在整个工业界的推广搜场景上，特征设计通常都是采用离散化的设计，需要保证两方面的效果，一方面是记忆，另一方面是泛化。特征都是通过...【详细内容】

2024-01-09　　DataFunTalk　　微信公众号　　Tags:百度推荐　点击:(77)　　评论:(0)　　加入收藏

什么是布隆过滤器？如何实现布隆过滤器？

以下我们介绍了什么是布隆过滤器？它的使用场景和执行流程，以及在 Redis 中它的使用，那么问题来了，在日常开发中，也就是在 Java 开发中，我们又将如何操作布隆过滤器呢？布隆过滤器（Blo...【详细内容】

2024-01-05　　Java中文社群　　微信公众号　　Tags:布隆过滤器　点击:(87)　　评论:(0)　　加入收藏

面向推荐系统的深度强化学习算法研究与应用

随着互联网的快速发展，推荐系统在各个领域中扮演着重要的角色。传统的推荐算法在面对大规模、复杂的数据时存在一定的局限性。为了解决这一问题，深度强化学习算法应运而生。本...【详细内容】

2024-01-04　　数码小风向　　　　Tags:算法　点击:(96)　　评论:(0)　　加入收藏

非负矩阵分解算法：从非负数据中提取主题、特征等信息

非负矩阵分解算法（Non-negativeMatrixFactorization，简称NMF）是一种常用的数据分析和特征提取方法，主要用于从非负数据中提取主题、特征等有意义的信息。本文将介绍非负矩阵分解...【详细内容】

2024-01-02　　毛晓峰　　　　Tags:算法　点击:(63)　　评论:(0)　　加入收藏

再谈前端算法，你这回明白了吗？

楔子 -- 青蛙跳台阶一只青蛙一次可以跳上一级台阶，也可以跳上二级台阶，求该青蛙跳上一个n级的台阶总共需要多少种跳法。分析: 当n=1的时候，①只需要跳一次即可；只有一种跳法，即f(...【详细内容】

2023-12-28　　前端爱好者　　微信公众号　　Tags:前端算法　点击:(108)　　评论:(0)　　加入收藏

三分钟学习二分查找

二分查找是一种在有序数组中查找元素的算法，通过不断将搜索区域分成两半来实现。你可能在日常生活中已经不知不觉地使用了大脑里的二分查找。最常见的例子是在字典中查找一个...【详细内容】

2023-12-22　　小技术君　　微信公众号　　Tags:二分查找　点击:(78)　　评论:(0)　　加入收藏

强化学习算法在资源调度与优化中的应用

随着云计算和大数据技术的快速发展，资源调度与优化成为了现代计算系统中的重要问题。传统的资源调度算法往往基于静态规则或启发式方法，无法适应动态变化的环境和复杂的任务需...【详细内容】

2023-12-14　　职场小达人欢晓　　　　Tags:算法　点击:(165)　　评论:(0)　　加入收藏

推荐资讯

新增融券再启动暂停键	16个Redis常见使用场
一篇文章教会你使用Py	聊聊Rust里面的数据类
C++中的外部模板及其	一篇文章带你了解Pyth
网络安全行业的春天何	Linux获取Redis 性能