python + selenium实现gitlab全文搜索

时间：2022-11-16 14:15:22 来源：今日头条作者：I提一刀

一般来说软件开发相关企业都会有自己内部的源代码管理工具，比如私有部署的gitlab服务器。特别是企业上规模之后会有多个产品线，各个业务产品线各自的项目解决方案会非常多。

以我们公司为例，就招聘事业部来说，内部的大大小小的中台ESB、MRest、各种Consumer消费端、各种工具等等解决方案现在已经上百个了。这个时候你就会遇到如下一些场景：

1.需要修改某个公共接口的参数或者某个基础库项目包中的公共方法，但是不知道到底哪些项目、哪些地方引用了该接口，不好评估影响点？

2.业务代码中已知道某个Kafka Topic，但是当初写代码兄弟没备注消费端的项目，找了很久就是找不到Consumer项目在哪儿？

3.我想通过某一些特定的关键词搜索某一段代码，记不清到底在哪些项目中使用了？

如果你有上述的困惑，那么下面介绍的这个gitlab 全局 Search代码搜索工具能够帮你解决这些问题。工具的实现采用Python/ target=_blank class=infotextkey>Python + selenium + chromedriver实现自动化登录内部gitlab站点，通过勾选默认配置的产品分组，实现对多个分组内的项目代码特定多个关键词查询搜索。工具的运行流程及界面大概如下面几幅截图所示：

step1.读取配置文件信息自动登录：

{
  "username": "yourname",
  "password": "yourpassword",
  "projectGroups": [
    "recrxxx",
    "platform-uiframework",
    "platform-infrastructure",
    "ux-share-platform"
  ]
}

step2: 登陆成功后主页注入搜索填充信息，可选择的搜索项目分组、关键词录入框等

step3:开始遍历项目分组，获取项目id，并执行关键词搜索

step4：获取命中结果展示，小于等于10个结果的会默认打开浏览器tab页全部展开，大于10个结果的需要手动打开单个或全部

step5:因为使用的chromedriver来驱动实现的，需要注意chrome浏览器版本与chromedriver版本的匹配，如不匹配会记录如下日志；

主要利用python 驱动 selenium 实现自动化控制gitlab项目页面，通过注入特定html标签代码，实现自动化搜索gitlab项目代码。下面是python脚本部分主要实现：

class GitLabSearchTool(object):
    def __init__(self):
        self.__username = ''
        self.__password = ''
        self.projectGroups = []
        self.usedKeywords = []
        self.__getConfigInfo()
        self.maxPageIndex = 50
        self.divId = 'spiderContAIner'
        self.searchDivId = 'searchContainer'
        self.base_url = "http://gitlab.xxxcorp.com"
        self.baseLoginUrl = "http://gitlab.xxxcorp.com/users/sign_in"
        self.startTime = datetime.now()
        self.isSearching = False
        self.stopSearch = False
        self.isClose = False
        self.successUrls = dict()
        self.searchGroup = []
        self.keywords = []
        self.request = None
        self.driver = None

    def start(self):
        user_agent = "Mozilla/5.0 (windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36"
        chrome_options = Options() 
        chrome_options.add_argument('user-agent={}'.format(user_agent))
        chrome_options.add_argument('--disable-plugins')  # 禁用插件
        chrome_options.add_argument('--start-maximized')  # 启动google Chrome就最大化
        chrome_options.add_experimental_option("excludeSwitches", ['enable-automation'])  # 隐藏"Chrome正在受到自动软件的控制"
        pathItem = ['chromedriver.exe']
        driverPath = Path.cwd().joinpath(*pathItem)
        self.driver = webdriver.Chrome(driverPath, options=chrome_options) 
        self.driver.get(self.baseLoginUrl)
        if self.__username and self.__password:
            WebDriverWait(self.driver, 1000).until(
                EC.presence_of_element_located((By.XPATH, '//*[@id="new_ldap_user"]')))
            time.sleep(0.3)
            self.driver.find_element(By.XPATH, '//*[@id="username"]').send_keys(self.__username)
            time.sleep(0.3)
            self.driver.find_element(By.XPATH, '//*[@id="password"]').send_keys(self.__password)
            time.sleep(0.3)
            self.driver.find_element(By.XPATH, '//*[@id="remember_me"]').click()
            self.driver.find_element(By.XPATH, '//*[@id="new_ldap_user"]/input[3]').click()
        threading.Thread(target=self.__checkBrowserIsClose).start()
        self.request = requests.session()
        try: 
            while not self.isClose:
                try:
                    homediv = self.driver.find_element(By.ID, "xxxyoucangohomenow")
                    if homediv is not None:
                        self.driver.get(self.base_url)
                except:
                    pass
                try:
                    searchDiv = self.driver.find_element(By.ID, "xxxyoucanstartsearchnow")
                    if searchDiv is None:
                        time.sleep(1)
                    else:
                        self.startTime = datetime.now()
                        self.successUrls.clear()
                        self.searchGroup.clear()
                        self.keywords.clear()
                        chkList = self.driver.find_elements(By.XPATH,
                                                            '//*[@id="searchGroup"]/descendant::input[@type="checkbox"]')
                        for chk in chkList:
                            if chk.get_attribute('checked') == 'true':
                                self.searchGroup.append(chk.get_attribute('attrvalue').strip())
                        if len(self.searchGroup) <= 0:
                            return
                        keywordInput = self.driver.find_element(By.ID, 'searchKeyword')
                        searchKeyword = keywordInput.get_attribute('value').strip()
                        keywords = re.split(',|，', searchKeyword)
                        if len(keywords) > 0:
                            for kw in keywords:
                                kw = kw.strip()
                                if len(kw) > 0:
                                    self.keywords.append(kw)
                        if len(self.keywords) <= 0:
                            self.driver.execute_script("arguments[0].focus();", keywordInput)
                            return 
                        self._search()
                except : 
                    time.sleep(1)
            print('webdriver is close')
            return
        except Exception as ex:
            print('异常：{}'.format(ex))
            return

    def _search(self):
        self.isSearching = True
        self.stopSearch = False
        for group in self.searchGroup:
            if self.stopSearch:
                break
            for page in range(1, self.maxPageIndex):
                if self.stopSearch:
                    break
                url = "http://gitlab.xxxcorp.com/{}?page={}".format(group, page)
                self.driver.get(url)
                WebDriverWait(self.driver, 5).until(
                    EC.presence_of_element_located((By.XPATH, '//*[@id="content-body"]/div[2]/div[1]/ul/li[1]/a')))
                projects = self.driver.find_elements(By.XPATH,
                                                     '//*[@id="projects"]/div/ul/descendant::a[@class="project"]')
                if len(projects) <= 0:
                    break
                for proj in projects:
                    try:
                        stopSearch = self.driver.find_element(By.ID, 'xxxyoucanstopsearchnow')
                        if stopSearch is not None:
                            self.stopSearch = True
                            break
                    except:
                        pass
                    projUrl = proj.get_attribute('href')
                    self.__searchProject(projUrl)
        endTime = datetime.now()  
        delta = (endTime - self.startTime).seconds   
        successCount = len(self.successUrls)
        searchKeyword = ','.join(self.keywords)
        if successCount > 0:
            searchedPojectUrl = self.__getSearchedProject()
            html = '''<div style="text-align:center;margin-top:150px;font-size:20px;font-weight:bold;color:white;">
                           <span>查询{}</span><br/>
                           <span>耗时：{} 秒! 命中{}个项目</span>
                           <button style="width:150px;margin-left:50px;color:red;font-size:16px;font-weight:normal;" 
                               type="button" onclick="gotohome()">跳转搜索主页</button>
                           <div id="searchresultdiv" style="font-size:18px;font-weight:normal;max-height:400px;
                                overflow:auto;margin:auto;margin-top:5px;width:50%;text-align:left;
                                border:1px solid white;border-radius:3px;padding:10px;scroll:auto;
                                ::-webkit-scrollbar {{width:4px;height:4px;}}">
                              <button style="width:150px;color:black;font-size:16px;font-weight:normal;" 
                               type="button" onclick="openAllUrl()">打开全部链接</button><br/>
                            {}</div>
                      </div>'''.format(searchKeyword, delta, successCount, searchedPojectUrl)
        else:
            html = '''<div style="text-align:center;margin-top:150px;font-size:20px;font-weight:bold;color:white;">
                           <span>查询{}</span><br/>
                           <span>耗时：{} 秒! 命中{}个项目</span>
                           <button type="button" style="width: 150px;margin-left:50px;color:red;font-size:16px;font-weight:normal;" 
                                onclick="gotohome()">跳转搜索主页</button><br/>
                      </div>'''.format(searchKeyword, delta, successCount)
        self.__createDom(html)
        self.isSearching = False
        if len(self.successUrls) <= 10:
            for url, name in self.successUrls.items():
                self.driver.execute_script('window.open("{}")'.format(url))
    def __searchProject(self, projUrl):
        proj = self.__getProjectId(projUrl)
        if proj[0] <= 0:
            return
        for keyword in self.keywords:
            if not (keyword and len(keyword.strip()) > 0):
                continue
            searchUrl = '{}/search?utf8=&snippets=&scope=&search={}&project_id={}' 
                .format(self.base_url, keyword, proj[0])
            data = self.request.get(searchUrl).text
            html = etree.HTML(data)
            topResults = html.xpath('//*[@id="content-body"]/div[contains(@class,"prepend-top-10")]')
            if len(topResults) > 0:
                self.successUrls[searchUrl] = proj[1]
                # js = 'window.open("{}")'.format(searchUrl)
                # self.driver.execute_script(js)
                # self.driver.switch_to.window(self.driver.window_handles[0])
            successCount = len(self.successUrls)
            if successCount > 0:
                searchedPojectUrl = self.__getSearchedProject()
                html = '''<div style="text-align:center;margin-top:150px;font-size:22px;font-weight:bold;color:white;">
                           <button style="width:150px;color:red;font-size:16px;font-weight:normal;" 
                                 type="button" onclick="stopSearch()">停止搜索</button><br/>
                           <span>正在查询"{}"</span><br/>
                           <span>{}</span><br/>
                           <span>查询命中{}个项目</span><br/>
                           <div style="font-size:16px;max-height:400px;width:50%;scroll:auto;
                                       overflow:auto;margin:auto;margin-top:5px;text-align:left;
                                       border:1px solid white;border-radius:3px;padding:10px;
                                ::-webkit-scrollbar {{width:4px;height:4px;}}"">{}</div>
                          </div>'''.format(keyword, projUrl, successCount, searchedPojectUrl)
            else:
                html = '''<div style="text-align:center;margin-top:150px;font-size:22px;font-weight:bold;color:white;">
                           <button style="width:150px;color:red;font-size:16px;font-weight:normal;" 
                                type="button" onclick="stopSearch()">停止搜索</button><br/>
                           <span>正在查询"{}"</span><br/>
                           <span>{}</span>
                          </div>'''.format(keyword, projUrl)
            self.__createDom(html)

    def __getProjectId(self, url):
        proj_id = 0
        proj_name = ''
        data = self.request.get(url).text
        html = etree.HTML(data)
        values = html.xpath('//*[@id="search_project_id"]/@value')
        if len(values) > 0:
            proj_id = int(values[0])
        names = html.xpath('//*[@id="search_project_id"]/@data-name')
        if len(names) > 0:
            proj_name = names[0]
        return (proj_id, proj_name)

.....

Tags：python 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

Python 可视化：Plotly 库使用基础

当使用 Plotly 进行数据可视化时，我们可以通过以下示例展示多种绘图方法，每个示例都会有详细的注释和说明。1.创建折线图import plotly.graph_objects as go# 示例1: 创建简单...【详细内容】

2024-04-01　　Search: python 点击:(8)　　评论:(0)　　加入收藏

Python 办公神器：教你使用 Python 批量制作 PPT

介绍本文将介绍如何使用openpyxl和pptx库来批量制作PPT奖状。本文假设你已经安装了python和这两个库。本文的场景是：一名基层人员，要给一次比赛活动获奖的500名选手制作奖状，并...【详细内容】

2024-03-26　　Search: python 点击:(18)　　评论:(0)　　加入收藏

五分钟内完成个性化Python GUI计算器搭建

一、前言在本教程中，你将学习如何在Python中使用Tkinter在短短几分钟内制作自己的全功能GUI计算器。在完成本教程时，除了通常随Python标准库一起安装的Tkinter之外，不需要任何...【详细内容】

2024-01-05　　Search: python 点击:(107)　　评论:(0)　　加入收藏

50 条实用的编写Python 程序建议

好学编程总结的50 条实用的编写Python 程序建议，如果你要接触Python或准备要学习Python，希望对你有用。一、编程前言建议1：理解Pythonic概念，详见Python中的《Python之禅》。建...【详细内容】

2023-12-29　　Search: python 点击:(138)　　评论:(0)　　加入收藏

python 爬虫常用第三方库推荐

Python 是一种非常适合进行网络爬虫开发的语言，拥有丰富的第三方库和工具，可以方便快捷地实现各种爬虫需求。下面是好学编程总结的 Python 爬虫开发的一些常用步骤：1. 确定目标...【详细内容】

2023-12-29　　Search: python 点击:(86)　　评论:(0)　　加入收藏

使用 Python 连接 SQL Server 数据库并实时读取数据？

实时读取SQL Server数据库表并进行处理是一个常见的需求。在Python中，可以使用pyodbc库来连接SQL Server数据库，并使用pandas库来进行数据处理。下面是一个实战示例，演示如何实...【详细内容】

2023-12-28　　Search: python 点击:(93)　　评论:(0)　　加入收藏

Python 新手入门必学的20个开源库

Python 新手入门必学的20个开源库，今天好学编程全部整理出来了，有需要的小伙伴可以参考一下！1.requests主要功能：发起http请求做过爬虫的程序员一定知道Python的requests库，它使H...【详细内容】

2023-12-27　　Search: python 点击:(89)　　评论:(0)　　加入收藏

Python Selenium实现自动化测试及Chrome驱动使用！

本文将介绍如何使用Python Selenium库实现自动化测试，并详细记录了Chrome驱动的使用方法。通过本文的指导，读者将能够快速上手使用Python Selenium进行自动化测试。并了解如何...【详细内容】

2023-12-25　　Search: python 点击:(129)　　评论:(0)　　加入收藏

Python 的 match 有点好用，推荐试试

Match 和 switch 都是控制流语句，但它们在语法和用法上有一些区别。(1) 语法： switch 语句通常在其他编程语言中使用，如 C、C++、Java 等。它的语法通常是 switch(expression)...【详细内容】

2023-12-18　　Search: python 点击:(123)　　评论:(0)　　加入收藏

5 个让日常编码更简单的 Python 库

如果曾经在 Python 中使用过 subprocess 库，那么我们很有可能对它感到失望，它不是最直观的库，可能还有些复杂，并且很难处理底层系统调用的输出。但是 sh 库结束了低效使用子进程...【详细内容】

2023-12-14　　Search: python 点击:(159)　　评论:(0)　　加入收藏

▌简易百科推荐

一篇文章教会你使用Python中三种简单的函数

所谓函数，就是指：把某些特定功能的代码组成为一个整体，这个整体就叫做函数。一、函数简介所谓函数，就是指：把某些特定功能的代码组成为一个整体，这个整体就叫做函数。二、函数定义...【详细内容】

2024-04-11　　Go语言进阶学习　　微信公众号　　Tags:Python 　点击:(5)　　评论:(0)　　加入收藏

一篇文章带你了解Python的分布式进程接口

在Thread和Process中，应当优选Process，因为Process更稳定，而且，Process可以分布到多台机器上，而Thread最多只能分布到同一台机器的多个CPU上。一、前言在Thread和Process中，应当优...【详细内容】

2024-04-11　　Go语言进阶学习　　　　Tags:Python 　点击:(2)　　评论:(0)　　加入收藏

Python 可视化：Plotly 库使用基础

2024-04-01　　Python技术　　　　Tags:Python 　点击:(8)　　评论:(0)　　加入收藏

Python 办公神器：教你使用 Python 批量制作 PPT

2024-03-26　　Python技术　　微信公众号　　Tags:Python 　点击:(18)　　评论:(0)　　加入收藏

Python实现工厂模式、抽象工厂，单例模式

工厂模式是一种常见的设计模式，它可以帮助我们创建对象的过程更加灵活和可扩展。在Python中，我们可以使用函数和类来实现工厂模式。一、Python中实现工厂模式工厂模式是一种常...【详细内容】

2024-03-07　　Python都知道　　微信公众号　　Tags:Python 　点击:(34)　　评论:(0)　　加入收藏

不可不学的Python技巧：字典推导式使用全攻略

Python的字典推导式是一种优雅而强大的工具，用于创建字典（dict）。这种方法不仅代码更加简洁，而且执行效率高。无论你是Python新手还是有经验的开发者，掌握字典推导式都将是你技能...【详细内容】

2024-02-22　　子午Python　　微信公众号　　Tags:Python技巧　点击:(35)　　评论:(0)　　加入收藏

如何进行Python代码的代码重构和优化？

Python是一种高级编程语言，它具有简洁、易于理解和易于维护的特点。然而，代码重构和优化对于保持代码质量和性能至关重要。什么是代码重构？代码重构是指在不改变代码外部行为的...【详细内容】

2024-02-22　　编程技术汇　　　　Tags:Python代码　点击:(36)　　评论:(0)　　加入收藏

Python开发者必备的八个PyCharm插件

在编写代码的过程中，括号几乎无处不在，以至于有时我们会拼命辨别哪个闭合括号与哪个开头的括号相匹配。这款插件能帮助解决这个众所周知的问题。前言在PyCharm中浏览插件列表...【详细内容】

2024-01-26　　Python学研大本营　　微信公众号　　Tags:PyCharm插件　点击:(89)　　评论:(0)　　加入收藏

Python的Graphlib库，再也不用手敲图结构了

Python中的graphlib库是一个功能强大且易于使用的工具。graphlib提供了许多功能，可以帮助您创建、操作和分析图形对象。本文将介绍graphlib库的主要用法，并提供一些示例代码和...【详细内容】

2024-01-26　　科学随想录　　微信公众号　　Tags:Graphlib库　点击:(88)　　评论:(0)　　加入收藏

Python分布式爬虫打造搜索引擎

简单分布式爬虫结构主从模式是指由一台主机作为控制节点负责所有运行网络爬虫的主机进行管理，爬虫只需要从控制节点那里接收任务，并把新生成任务提交给控制节点就可以了，在这个...【详细内容】

2024-01-25　　大雷家吃饭　　　　Tags:Python 　点击:(59)　　评论:(0)　　加入收藏

推荐资讯

早高峰打“飞的”有多	JavaScript的异步编程
Rust编程语言的内存安	数字人破解跨境直播难
Meta确认5月发布Llama	ChatGPT 应用商店？可能
社交网络与Web3：数字社	速查微信聊天最频繁对