您当前的位置：首页 > 新闻资讯 > 科技

GitHub痛改代码搜索引擎，18小时建155亿个文档索引，技术已公开

时间：2023-02-08 12:19:47 来源：作者：量子位

+ 加入收藏

萧箫发自凹非寺
量子位 | 公众号 QbitAI

还记得Github发布的新版代码搜索引擎吗？

经过一番测试优化后，GitHub现在公开了背后的技术原理。

最新版搜索引擎，不仅解决了之前搜代码时“驴唇不对马嘴”的情况，还可以直接用正则表达式搜索；此外也解决了部分项目上传后搜不到等问题……

网友们看完技术原理后感到惊喜：

这真不错！我看到了谷歌代码搜索引擎的影子。
其实我知道，很少有做代码搜索引擎的人愿意去GitHub，但很高兴能看到这一功能将变得更好用。

要知道，此前GitHub的代码搜索引擎，一度被用户吐槽“形同虚设”。

有不少用户直接自己找了更好用的代码搜索引擎，专门搜索想要的代码：

在这种情况下，新版GitHub代码搜索引擎究竟采用了什么技术，做出了哪些改进？

基于Rust语言的搜索引擎

GitHub新版代码搜索引擎名叫Blackbird，它的关键在于重新构建了一个索引。

这里主要实现两类索引，包括正向索引（Forward index）和反向索引（Inverted index）。

简单来说，正向索引指先给数据库中的各种内容编号（ID），然后通过这些内容ID来搜索对应的具体内容：

这种搜索方法虽然比较直观，也容易理解，但搜索量太大了。如果我们只想通过关键字搜索对应内容，就需要用到反向索引。

反向索引即通过内容中关键词，直接搜到对应的内容ID，从而立刻定位到对应的内容。

具体到反向索引实现方法上，GitHub采用了一种名叫ngram索引的方法，可以很方便地查找内容的子字符串。

这种方法怎么理解？

以limits这个字符串为例，如果ngram中的n=3，那么我们就可以将它分为lim、imi、mit、its四个子字符串。

这时候搜索任意一个字符串，都能找到对应的内容ID，从而定位到想要搜索的内容。

但GitHub的程序员们也意识到，这样构建的索引太大了，要真这样搜索的话会导致服务器不够用，因此还需要对这种方法进行优化。

在Hacker News中有一位GitHub程序员对此做出了解释，即采用一种叫做覆盖稀疏ngrams（covering sparse ngrams）的方法生成候选集，并搜索对应内容，其中9代表ch、6代表he、3表示es，以此类推：

以这类方法为基础建立的系统如下：

所以，新版搜索引擎是否真的比之前更好用了？

测试版体验如何？

目前GitHub中有大约4500万个存储库、115TB代码和155亿个文档。

据GitHub官方表示，原本在改进之前，处理155亿个文档需要大约36个小时。

然而在重写代码之后，需要抓取的文档数量降低了50%以上，因此只需要18个小时左右就可以重新给整个语料库创建索引。

除此之外，需要搜索的内容量也降低了不少。

原本需要搜索的内容在115TB左右，现在将重复内容和数据删除之后，包括索引和内容压缩副本加起来只有25TB大小，缩减到之前的25%左右。

目前测试版依旧在开放申请中，有不少GitHub用户已经试用了一波。

虽然有不少用户对新搜索引擎测试版反响不错，但也有人提出了一些建议。

例如目前这个代码搜索引擎还没办法过滤fork项目，有时候用代码搜索引擎，搜出来全是同一个项目。

对此GitHub程序员也给出了反馈，表示他们之前一直在调整索引这一块，以后会考虑这样的附加功能。

除此之外，也有用户表示，GitHub新版搜索引擎依旧不好用，它从来不区分符号的定义和使用，有时候搜出来的结果，往往需要往后翻5页左右，才能找到想要的结果。

对此，还有网友推荐了自己常用的代码搜索引擎，如Sourcegraph。

你试用过GitHub的新代码搜索引擎了吗？或是还有什么其他好工具推荐？

新版代码搜索引擎申请试用：
https://github.com/features/code-search

参考链接：
[1]https://github.blog/2023-02-06-the-technology-behind-githubs-new-code-search/
[2]https://news.ycombinator.com/item?id=34680903

Tags：GitHub 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

GitHub顶流"Web OS"——运行于浏览器的桌面操作系统、用户超100万、原生jQuery和JS编写

Puter 是近日在 GitHub 上最受欢迎的一款开源项目，正式开源还没到一周 ——star 数就已接近 7k。作者表示这个项目已开发 3 年，并获得了超过 100 万用户。根据介绍，P...【详细内容】

2024-03-10　　Search: GitHub 点击:(28)　　评论:(0)　　加入收藏

基于GitHub App 深度讲解Kotlin高级特性与框架设计

基于GitHub App 深度讲解Kotlin高级特性与框架设计GitHub App 是 GitHub 平台上的一种特殊类型的应用程序，它允许开发者通过 GitHub API 与 GitHub 上的仓库和组织进行交互...【详细内容】

2023-11-28　　Search: GitHub 点击:(199)　　评论:(0)　　加入收藏

GitHub：程序员正积极使用 AI 编程、JavaScript 语言依然最流行

IT之家 11 月 20 日消息，GitHub 发布了 2023 年度 Octoverse 开源状态报告，其中主要强调了 AI 在开发过程中的作用，并围绕云和 Git 的开源活动展开。官方介绍称，今年的三大趋势...【详细内容】

2023-11-20　　Search: GitHub 点击:(173)　　评论:(0)　　加入收藏

Git新手如何上传项目代码到GitHub并完成后续的代码更新？

国内对于个人站长的发展空间限制越来越多，首先是百度主推自家产品，现在权重最高的似乎就是百家号了，其次是腾讯云、阿里云这些提供IDC大厂提供的云端服务产品也很少有针对个人...【详细内容】

2023-11-15　　Search: GitHub 点击:(243)　　评论:(0)　　加入收藏

如何在GitHub上存储源码并保持同步

GitHub是一个广泛使用的基于云的代码托管平台，它为开发者提供了一个便捷的方式来存储、管理和共享他们的源代码。通过GitHub，开发者可以轻松地与团队成员合作，跟踪代码更改，并保...【详细内容】

2023-11-15　　Search: GitHub 点击:(238)　　评论:(0)　　加入收藏

GitHub在大会上发布的十大AI更新！

作者 | Tasmia 策划 | 言征出品 | 51CTO技术栈（微信号：blog51cto）GitHub的母公司微软在生成人工智能业务方面取得了巨大增长，该公司首席执行官萨蒂亚·纳德拉告诉华尔街，该...【详细内容】

2023-11-13　　Search: GitHub 点击:(226)　　评论:(0)　　加入收藏

重塑 GitHub、颠覆程序开发：GitHub Universe 2023 发布重大更新

编译 | 核子可乐、TinaGitHub 的东家微软看到了生成式 AI 业务的大幅增长，其首席执行官萨蒂亚·纳德拉 (Satya Nadella) 告诉华尔街，GitHub Copilot 软件的付费客户在第...【详细内容】

2023-11-10　　Search: GitHub 点击:(221)　　评论:(0)　　加入收藏

GitHub黑市曝光，高档刷星6元一颗，最奇葩开源项目97%都是刷的

梦晨克雷西发自凹非寺量子位 | 公众号 QbitAI在黑市买GitHub星星多少钱？最贵的高达6元一颗。有创业者Yassin Eldeeeb自掏腰包测试了一把。他足足花20欧元（约156人民币），只买...【详细内容】

2023-11-05　　Search: GitHub 点击:(60)　　评论:(0)　　加入收藏

AI编程，详细比较GitHub Copilot对比Amazon CodeWhisperer

1、简介GitHub Copilot和Amazon CodeWhisperer是采用人工智能技术驱动的编码助手，它们将自动完成编码功能提升到一个全新的水平。在最佳状态下，它们可以根据开发者提供的简短...【详细内容】

2023-11-01　　Search: GitHub 点击:(225)　　评论:(0)　　加入收藏

大模型无法替代码农！普林斯顿芝大惊人发现：GPT-4解决GitHub编程问题成功率为0

Stack Overflow，已经被ChatGPT创飞了！因为码农大量涌向ChatGPT、Github Copilot，Stack Overflow今天不得已宣布裁员100多人，几乎占员工人数的1/3。所以，ChatGPT这类AI编码工具，真...【详细内容】

2023-10-17　　Search: GitHub 点击:(287)　　评论:(0)　　加入收藏

▌简易百科推荐

Google成了“AI界汪峰”，全都怪OpenAI？

　　2016 年，Google CEO 桑达尔·皮查伊在 I/O 开发者大会上豪情满怀地向全世界宣布：Google 已经成为了搜索的代名词，Alphabet 未来将成为一家 AI 优先的公司。　　凭借...【详细内容】

2024-04-15　　　　APPSO　　Tags:Google 　点击:(2)　　评论:(0)　　加入收藏

人工智能耗电凶猛，科技巨头寻求核聚变发电

第一财经作者：朱颖人工智能(AI)是电老虎，每天在吞噬巨大的电能。据报道，OpenAI的ChatGPT每天消耗超过50万千瓦时的电力，以响应2亿个用户的请求，而美国一个家庭平均每天的用电量...【详细内容】

2024-04-15　　　　第一财经　　Tags:人工智能耗电　点击:(2)　　评论:(0)　　加入收藏

Meta确认5月发布Llama 3，参数量达1400亿

周二，在伦敦的一场活动上，Meta 确认计划在下个月初推出其 LLM 的最新版 Llama 3，这个模型是驱动生成式 AI 助手的核心技术。这一消息证实了《The Information》杂志周一发布的...【详细内容】

2024-04-12　　视角先锋队　　　　Tags:Meta 　点击:(7)　　评论:(0)　　加入收藏

OpenAI 宣布向 ChatGPT 付费用户开放新 GPT-4 Turbo 模型

IT之家 4 月 12 日消息，OpenAI 今日宣布，新 GPT-4 Turbo 现已向付费 ChatGPT 用户开放。与 1 月份相比，新版本提高了写作、数学、逻辑推理和编码的能力。GPT-4 Turbo 可在 Chat...【详细内容】

2024-04-12　　　　IT之家　　Tags:GPT-4 　点击:(6)　　评论:(0)　　加入收藏

Meta推出新版自研AI芯片：性能较上代提高三倍，降低对英伟达依赖

AI（人工智能）芯片紧缺之际，越来越多科技巨头选择自行研发。当地时间4月10日，社交巨头Meta公布了自主研发芯片MTIA的最新版本。MTIA是Meta专门为AI训练和推理工作设计的定制芯片...【详细内容】

2024-04-11　　　　澎湃新闻　　Tags:Meta 　点击:(5)　　评论:(0)　　加入收藏

英特尔发布新一代AI芯片并首推AI芯片代工 “单挑”英伟达和台积电

新华财经上海4月11日电当地时间4月9日，英特尔在Vision 2024客户和合作伙伴大会上宣布推出最新AI芯片产品Gaudi 3加速器。英特尔称，相比英伟达的H100 GPU，Gaudi3 AI芯片的模型...【详细内容】

2024-04-11　　　　上海证券报　　Tags:英特尔　点击:(7)　　评论:(0)　　加入收藏

AI“复活”亲人成生意，哪些红线待划定？

提供一张照片、一段10多秒的音频，即可让逝者在视频中“活”过来——AI“复活”亲人成生意，哪些红线待划定？本报记者陶稳《工人日报》(2024年04月11日 06版)阅读提示...【详细内容】

2024-04-11　　　　工人日报　　Tags:AI 　点击:(5)　　评论:(0)　　加入收藏

科技巨头狂撒千亿美元 “买照片”，只为训练AI模型？

高质量的数据，越来越值钱。你能想象，那些被遗忘在网盘的陈年老图，有朝一日能价值千金？就在最近，路透社报道称，苹果公司正与图像托管网站Photobucket协商，希望得到这家公司近130亿张...【详细内容】

2024-04-10　　　　镁客网　　Tags:AI模型　点击:(4)　　评论:(0)　　加入收藏

谷歌推出适用于安卓设备的“查找我的设备”网络

IT之家 4 月 9 日消息，谷歌今日推出了适用于安卓设备的“查找我的设备”网络，其功能类似于苹果的“查找”网络，旨在帮助用户定位丢失、被盗的安卓产品。IT之家注意到，与苹果的“...【详细内容】

2024-04-09　　　　IT之家　　Tags:安卓　点击:(6)　　评论:(0)　　加入收藏

你的自拍和聊天记录，正被硅谷大厂砸数十亿美元疯抢

2026年的数据荒越来越近，硅谷大厂们已经为AI训练数据抢疯了。它们纷纷豪掷十数亿美元，希望把犄角旮旯里的照片、视频、聊天记录都给挖出来。不过，如果有一天AI忽然吐出了我们的...【详细内容】

2024-04-09　　　　新智元　　Tags:硅谷　点击:(3)　　评论:(0)　　加入收藏

推荐资讯

5月新政策实施，电动车	新“国九条”，你真看懂
网友喊话刘强东开直播	4月央行缩量续做1000
知名早教机构跑路，背后	无出境记录！警方披露“
SU7限时4月19日可改配	梁朝伟六夺金像影帝！网

站内最新

栏目相关

· Google成了“AI界汪峰”，全都怪OpenAI？

· 人工智能耗电凶猛，科技巨头寻求核聚变发电

· Meta确认5月发布Llama 3，参数量达1400亿

· OpenAI 宣布向 ChatGPT 付费用户开放新 GPT-4 Turbo 模型

· Meta推出新版自研AI芯片：性能较上代提高三倍，降低对英伟达依赖

· 英特尔发布新一代AI芯片并首推AI芯片代工 “单挑”英伟达和台积电

· AI“复活”亲人成生意，哪些红线待划定？

· 科技巨头狂撒千亿美元 “买照片”，只为训练AI模型？

· 谷歌推出适用于安卓设备的“查找我的设备”网络

· 你的自拍和聊天记录，正被硅谷大厂砸数十亿美元疯抢

· 谷歌搜索史上最大变革！考虑对AI搜索收费

· 为训练AI，OpenAI等科技巨头花式淘数据

· 训出GPT-5短缺20万亿token！OpenAI被曝计划建「数据市场」

· 当“机器人”有了“AI大脑” 人形机器人时代来了吗

· 报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

· 量子计算会和经典计算一样融入人们的日常生活

· ChatGPT官宣免注册，全球互联网变天！OpenAI将取代谷歌搜索？

· 谷歌为了结集体诉讼，同意删除 Chrome 无痕模式下收集的用户数据

· 哥伦比亚大学华人开发「人脸机器人」，照镜子自主模仿人类表情超逼真

· 谷歌服务现已支持使用 Windows Hello 人脸和指纹解锁登录

站内热门