使用雪花算法(Snowflake Algorithm)在Python中生成唯一ID

news/2024/7/7 21:46:01 标签: python, 开发语言, 雪花算法, 唯一ID

使用雪花算法Snowflake Algorithm在Python中生成唯一ID

  • 使用雪花算法(Snowflake Algorithm)在Python中生成唯一ID
    • 雪花算法简介
    • Python实现
    • 代码解析
    • 使用示例
    • 优势
    • 注意事项
    • 适用场景
    • 结论

使用雪花算法(Snowflake Algorithm)在Python中生成唯一ID

在分布式系统中生成唯一ID是一个常见的需求。Twitter的雪花算法(Snowflake Algorithm)是一种优秀的解决方案,它可以生成64位的唯一ID,包含时间戳、工作机器ID和序列号。今天,我们将探讨如何在Python中实现雪花算法

雪花算法简介

雪花算法生成的ID结构如下:

  • 1位符号位(始终为0)
  • 41位时间戳(毫秒级)
  • 5位数据中心ID
  • 5位工作机器ID
  • 12位序列号

这种结构允许在同一毫秒内生成4096个唯一ID,并支持多个数据中心和工作机器。

Python实现

python">import time
import threading

class SnowflakeGenerator:
    def __init__(self, datacenter_id, worker_id):
        self.datacenter_id = datacenter_id
        self.worker_id = worker_id
        self.sequence = 0
        self.last_timestamp = -1

        # Bit lengths for different parts
        self.datacenter_id_bits = 5
        self.worker_id_bits = 5
        self.sequence_bits = 12

        # Maximum values
        self.max_datacenter_id = -1 ^ (-1 << self.datacenter_id_bits)
        self.max_worker_id = -1 ^ (-1 << self.worker_id_bits)
        self.max_sequence = -1 ^ (-1 << self.sequence_bits)

        # Shift amounts
        self.worker_id_shift = self.sequence_bits
        self.datacenter_id_shift = self.sequence_bits + self.worker_id_bits
        self.timestamp_shift = self.sequence_bits + self.worker_id_bits + self.datacenter_id_bits

        self.lock = threading.Lock()

    def _current_milliseconds(self):
        return int(time.time() * 1000)

    def _til_next_millis(self, last_timestamp):
        timestamp = self._current_milliseconds()
        while timestamp <= last_timestamp:
            timestamp = self._current_milliseconds()
        return timestamp

    def generate_id(self):
        with self.lock:
            timestamp = self._current_milliseconds()

            if timestamp < self.last_timestamp:
                raise ValueError("Clock moved backwards. Refusing to generate id.")

            if timestamp == self.last_timestamp:
                self.sequence = (self.sequence + 1) & self.max_sequence
                if self.sequence == 0:
                    timestamp = self._til_next_millis(self.last_timestamp)
            else:
                self.sequence = 0

            self.last_timestamp = timestamp

            return ((timestamp - 1288834974657) << self.timestamp_shift) | \
                   (self.datacenter_id << self.datacenter_id_shift) | \
                   (self.worker_id << self.worker_id_shift) | \
                   self.sequence

def generate_unique_id(prefix: str, datacenter_id: int, worker_id: int) -> str:
    generator = SnowflakeGenerator(datacenter_id, worker_id)
    snowflake_id = generator.generate_id()
    return f"{prefix}{snowflake_id}"

代码解析

  1. SnowflakeGenerator类

    • 初始化方法设置数据中心ID和工作机器ID,并定义各部分的位长度和最大值。
    • _current_milliseconds()方法获取当前时间戳(毫秒级)。
    • _til_next_millis()方法等待直到下一毫秒。
    • generate_id()方法是核心,它生成唯一的雪花ID。
  2. generate_id()方法

    • 使用锁确保线程安全。
    • 获取当前时间戳。
    • 处理时钟回拨问题(抛出异常)。
    • 处理同一毫秒内的序列号。
    • 组合各部分生成最终的ID。
  3. generate_unique_id()函数

    • 创建SnowflakeGenerator实例。
    • 生成雪花ID并添加前缀。

使用示例

python"># 创建一个生成器,指定数据中心ID和工作机器ID
datacenter_id = 1
worker_id = 1

# 生成用户ID
user_id = generate_unique_id("USER_", datacenter_id, worker_id)
print(f"生成的用户ID: {user_id}")

# 生成订单ID
order_id = generate_unique_id("ORDER_", datacenter_id, worker_id)
print(f"生成的订单ID: {order_id}")

# 生成多个产品ID
for i in range(5):
    product_id = generate_unique_id("PROD_", datacenter_id, worker_id)
    print(f"产品 {i+1} ID: {product_id}")

输出可能如下:

生成的用户ID: USER_6791951648483729408
生成的订单ID: ORDER_6791951648483729409
产品 1 ID: PROD_6791951648483729410
产品 2 ID: PROD_6791951648483729411
产品 3 ID: PROD_6791951648483729412
产品 4 ID: PROD_6791951648483729413
产品 5 ID: PROD_6791951648483729414

优势

  1. 高性能雪花算法可以快速生成ID,不需要网络请求或数据库操作。
  2. 唯一性:在正确配置的情况下,可以保证全局唯一性。
  3. 有序性:生成的ID大致按时间顺序递增,有利于数据库索引。
  4. 包含信息:ID中包含时间戳、数据中心和工作机器信息,便于追踪和调试。
  5. 可定制:可以根据需求调整各部分的位数。

注意事项

  1. 时钟同步雪花算法依赖系统时钟,在分布式系统中需要确保时钟同步。
  2. 时钟回拨:代码中包含了对时钟回拨的处理,但在实际应用中可能需要更复杂的处理逻辑。
  3. 数据中心和工作机器ID:需要确保这些ID在整个分布式系统中是唯一的。
  4. 64位限制:如果使用的语言或系统不支持64位整数,可能需要调整算法。

适用场景

雪花算法特别适用于以下场景:

  • 分布式系统中需要生成全局唯一ID
  • 需要按时间顺序对数据进行排序
  • 高并发系统,需要快速生成大量唯一ID
  • 微服务架构,每个服务需要独立生成ID

结论

雪花算法提供了一种优雅的方式来在分布式系统中生成唯一ID。这个Python实现简单易用,同时保持了雪花算法的核心优势。在实际应用中,您可能需要根据具体需求进行进一步的调整和优化,例如处理时钟回拨的更复杂情况,或者调整各部分的位数分配。

通过使用这种方法,您可以在Python项目中轻松实现高效、唯一且信息丰富的ID生成。无论是用于用户ID、订单编号还是其他需要唯一标识符的场景,雪花算法都能提供可靠的解决方案。


http://www.niftyadmin.cn/n/5535353.html

相关文章

sql 的 update操作

sqlserver:在SQL Server中&#xff0c;你的UPDATE语句的语法需要稍微调整一下。你不能直接在SET子句之后立即跟INNER JOIN。正确的语法是将JOIN操作放在UPDATE和SET之间。以下是正确的写法&#xff1a; UPDATE test_item SET test_item.s1no subcontractor.s1no FROM test_it…

【C语言】—— 文件操作(上)

【C语言】—— 文件操作&#xff08;上&#xff09; 一、 为什么使用文件二、 什么是文件2.1、 程序文件2.2、 数据文件2.3、 文件名2.4、二进制文件与文本文件 三、 文件的打开和关闭3.1、流和标准流&#xff08;1&#xff09;流&#xff08;2&#xff09;标准流 3.2、文件指针…

【MongoDB】分布式数据库入门级学习

SueWakeup 个人主页&#xff1a;SueWakeup 系列专栏&#xff1a;为祖国的科技进步添砖Java 个性签名&#xff1a;保留赤子之心也许是种幸运吧 本文封面由 凯楠&#x1f4f8;友情提供 凯楠&#x1f4f8; - 不夜长安 目录 MongoDB 相关 数据库排行榜单 MongoDB 中文官网 菜鸟…

工厂自动化相关设备工业一体机起到什么作用?

在当今的制造业领域&#xff0c;工厂自动化已成为提高生产效率、保证产品质量和降低成本的关键。在这一进程中&#xff0c;工业一体机作为一种重要的设备&#xff0c;发挥着不可或缺的作用。 工业一体机是自动化生产线上的控制中心。它能够整合和处理来自各个传感器、执行器和其…

【全网最全】2024年APMCM第十四届亚太地区大学生数学建模竞赛(中文赛项)完整思路解析+代码+论文

我是Tina表姐&#xff0c;毕业于中国人民大学&#xff0c;对数学建模的热爱让我在这一领域深耕多年。我的建模思路已经帮助了百余位学习者和参赛者在数学建模的道路上取得了显著的进步和成就。现在&#xff0c;我将这份宝贵的经验和知识凝练成一份全面的解题思路与代码论文集合…

基于RK3588的GMSL、FPDLink 、VByone及MIPI等多种摄像模组,适用于车载、机器人工业图像识别领域

机器人&工业摄像头 针对机器人视觉与工业检测视觉&#xff0c;信迈自主研发和生产GMSL、FPDLink 、VByone及MIPI等多种摄像模组&#xff0c;并为不同应用场景提供多种视场角度和镜头。拥有资深的图像算法和图像ISP专家团队&#xff0c;能够在软件驱动层开发、ISP算法、FPG…

16、matlab求导、求偏导、求定积分、不定积分、数值积分和数值二重积分

0&#xff09;前言 在MATLAB中&#xff0c;对函数进行不同形式的求导、求积分操作是非常常见的需求&#xff0c;在工程、科学等领域中经常会用到。以下是关于求导、求积分以及数值积分的简介&#xff1a; 求导&#xff1a;在MATLAB中可以使用diff函数对函数进行求导操作。diff…

安装 VisualSVN Server提示HTTP服务无法启动的问题解决

安装 VisualSVN Server 版本&#xff1a;VisualSVN-Server-5.4.0-x64 安装包在安装到一半的时候&#xff0c;弹窗提示&#xff1a;HTTP服务无法启动&#xff0c;网上找了一大堆&#xff0c;说是service里面更改用户为本地用户什么的都没用用&#xff0c;点右键也无法启动。 …