您当前的位置:首页 > 电脑百科 > 程序开发 > 算法

如何从上亿条 IP 地址中去除重复的地址?

时间:2021-04-30 11:33:00  来源:今日头条  作者:一切皆对象

前言

Hello,朋友们好,欢迎来到我的口述算法系列,今天的主题是大规模数据去重。

思路一

首先,这里的 IP 地址就是类似 192.168.1.1 这种具体的 IP 地址,而并不是 192.168.1.1/16 这种带掩码的表示方法。

一个 IP 地址可以用 4 个字节表示,对应一个 int 类型的整数,这个数的最大值就是 2 的 32 次方,大约是 512 Mbyte。从而,定义一个长度为 512M 的 bitset. 如果出现某个 IP 地址就把 bitset 对应的位置设为 1.

思路二

如果 IP 地址换成 IPv6 呢?每个 IPv6 地址需要用 64 bit 表示,那么这个 bitset 需要多大呢?2 的 64 次方,约 2 Ebyte,这是个天文数字。所以,如何在有限空间的 bitset 上实现大规模数据的去重呢?答案就是布隆过滤器,在我之前的文章中有详细介绍过C++ 实现布隆过滤器 - 从上亿条数据中查找某个记录是否存在 。

大规模数据集中的每个元素就是 key,通过多个哈希函数计算出多个索引值,然后将 bitset 对应位置置为 1. 同理,在查找的时候,如果每个哈希函数求出来的索引值对应的 bitset 中都为 1,那么这个 key 就存在。

但是,布隆过滤器有个小小的缺点,它有一定的误判概率,假设哈希函数的个数是 k,误判率大概是 0.5 的 k 次方,所以误判率随着 k 的增加会变得非常小。



Tags:IP 地址   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
DNS 过程,步骤如下:查看浏览器内部缓存 检测域名是否存在于浏览器缓存中,如果有缓存直接使用,没有则下一步。打开chrome://net-internals/#dns 即可查看本机浏览器的 DNS 缓存。...【详细内容】
2021-07-09  Tags: IP 地址  点击:(87)  评论:(0)  加入收藏
前言Hello,朋友们好,欢迎来到我的口述算法系列,今天的主题是大规模数据去重。思路一首先,这里的 IP 地址就是类似 192.168.1.1 这种具体的 IP 地址,而并不是 192.168.1.1/16 这种...【详细内容】
2021-04-30  Tags: IP 地址  点击:(346)  评论:(0)  加入收藏
本教程介绍了如何在 Linux 终端验证域名或计算机名的 IP 地址。本教程将允许你一次检查多个域。-- Magesh Maruthamuthu(作者)本教程介绍了如何在 Linux 终端验证域名或计算...【详细内容】
2019-12-04  Tags: IP 地址  点击:(101)  评论:(0)  加入收藏
▌简易百科推荐
前言Kafka 中有很多延时操作,比如对于耗时的网络请求(比如 Produce 是等待 ISR 副本复制成功)会被封装成 DelayOperation 进行延迟处理操作,防止阻塞 Kafka请求处理线程。Kafka...【详细内容】
2021-12-27  Java技术那些事    Tags:时间轮   点击:(1)  评论:(0)  加入收藏
博雯 发自 凹非寺量子位 报道 | 公众号 QbitAI在炼丹过程中,为了减少训练所需资源,MLer有时会将大型复杂的大模型“蒸馏”为较小的模型,同时还要保证与压缩前相当的结果。这就...【详细内容】
2021-12-24  量子位    Tags:蒸馏法   点击:(9)  评论:(0)  加入收藏
分稀疏重建和稠密重建两类:稀疏重建:使用RGB相机SLAMOrb-slam,Orb-slam2,orb-slam3:工程地址在: http://webdiis.unizar.es/~raulmur/orbslam/ DSO(Direct Sparse Odometry)因为...【详细内容】
2021-12-23  老师明明可以靠颜值    Tags:算法   点击:(7)  评论:(0)  加入收藏
1. 基本概念希尔排序又叫递减增量排序算法,它是在直接插入排序算法的基础上进行改进而来的,综合来说它的效率肯定是要高于直接插入排序算法的;希尔排序是一种不稳定的排序算法...【详细内容】
2021-12-22  青石野草    Tags:希尔排序   点击:(6)  评论:(0)  加入收藏
ROP是一种技巧,我们对execve函数进行拼凑来进行system /bin/sh。栈迁移的特征是溢出0x10个字符,在本次getshell中,还碰到了如何利用printf函数来进行canary的泄露。ROP+栈迁移...【详细内容】
2021-12-15  星云博创    Tags:栈迁移   点击:(19)  评论:(0)  加入收藏
一、什么是冒泡排序1.1、文字描述冒泡排序是一种简单的排序算法。它重复地走访要排序的数列,一次比较两个元素,如果他们的顺序错误就把他们交换过来。走访数列的工作是重复地...【详细内容】
2021-12-15    晓掌柜丶韶华  Tags:排序算法   点击:(16)  评论:(0)  加入收藏
在了解golang的map之前,我们需要了解哈希这个概念。哈希表,又称散列表(Hash table),是根据键(key)而直接访问在内存储存位置的数据结构。也就是说,它通过计算出一个键值的函数,将...【详细内容】
2021-12-07  一棵梧桐木    Tags:哈希表   点击:(13)  评论:(0)  加入收藏
前面文章在谈论分布式唯一ID生成的时候,有提到雪花算法,这一次,我们详细点讲解,只讲它。SnowFlake算法据国家大气研究中心的查尔斯·奈特称,一般的雪花大约由10^19个水分子...【详细内容】
2021-11-17  小心程序猿QAQ    Tags:雪花算法   点击:(24)  评论:(0)  加入收藏
导读:在大数据时代,对复杂数据结构中的各数据项进行有效的排序和查找的能力非常重要,因为很多现代算法都需要用到它。在为数据恰当选择排序和查找策略时,需要根据数据的规模和类型进行判断。尽管不同策略最终得到的结果完...【详细内容】
2021-11-04  华章科技    Tags:排序算法   点击:(37)  评论:(0)  加入收藏
这是我在网上找的资源的一个总结,会先给出一个我看了觉得还行的关于算法的讲解,再配上实现的代码: Original author: Bill_Hoo Original Address: http://blog.sina.com.cn/s/bl...【详细内容】
2021-11-04  有AI野心的电工和码农    Tags: KMP算法   点击:(36)  评论:(0)  加入收藏
最新更新
栏目热门
栏目头条