机器学习之恶意流量检测的特征工程

时间：2020-07-29 15:17:15 来源：作者：

传统的机器学习除了使用Tfidf-ngram的方式外还有其他做特征工程方式，还可以通过定义不同维度的特征来做特征工程，这种特征工程方式需要安全工程师对每一种攻击有良好特征提取能力。这种方法举个例子来说可以这样理解，我的输入是姚明，此时我在特征工程阶段需要将姚明转化为身高2.2米、体重400斤等等数值特征，再经过标准化等转化为机器可以识别的量纲单位进行学习预测。

机器学习流程&特征工程

传统的机器学习可以理解成是生产算法的算法。需要人来先做特征提取，然后再把特征向量化后交给机器去训练。为什么要做特征工程，有这么一句话在业界广泛流传：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。我们做特征工程的目的是为了让训练后的结果达到最优的状态。

本例中我们的目的是从流量中识别恶意流量，首先需要在所有的负例样本中筛选出最具代表的特征，在所有的负例样本中筛选出最具代表的特征，我们先从简单关键词特征开始。观察正例样本基本没有类似information_schema.table、 sleep() 、alert(/1/)这种的特殊字符。

format=xml&platform=ppap&channel=withoutchannelfilename=sgim_eng.zip&h=B2EF665558623D671FC19AC78CA2F0F3&v=8.0.0.8381&ifauto=1

md5=d10015a0eb30bd33bb917e1d527c649num=8&PaperCode=600054daid=41&clientuin=1264523260

clientkey=00015947C124007000F19A1CB5D10832A25TAG=ieg.qqpenguin.desktopdaid=41&clientuin=1264523260

观察负例样本可以将如下负例样本看作是请求的value部分如http://x.x.x/path?key1=value1&key2=value2，可以观察到同类型攻击具有很多相同的特征，比如xss来说具有很多JAVAscript、alert、onerror=等特征，sql注入具有informationschema、informationschema.table、select、from、where等关键词特征

<form id="test" /><button form="test"formaction="JavaScript:alert(123)">TESThtml5FORMACTION<scriptitworksinallbrowsers>/<script */alert(1)</script<metahttp-equiv="refresh" content="0;url=javascript:confirm(1)"></textarea><script>alert(/xss/)</script>'><script>alert(document.cookie)</script><form><isindexformaction="javascript:confirm(1)"alert(String.fromCharCode(88,83,83));'))"><inputtype="text" value=``<div/onmouseover='alert(1)'>X</div><BODY ONLOAD=alert('helloxworldss')><![><img src="]><img src=x onerror=alert(XSS)//"><inputonblur=write(XSS) autofocus><input autofocus>

本例抽取部分的xss负例样本，从中可以抽取的特征规则大致可以这样表示

即便如此仍然会存在很多变形特征，比如<script/**/>、console.log()、<Script>，所以进行一步完善特征工程这一次我们将特征分为两个维度，第一个维度是词特征，第二是符号维度，同时对所有的大小写进行统一转换为小写，对于请求的value是url这种可能会存在很多特殊符号的链接特征，在本例中可以进行统一降噪转换为"x"避免受到此类特征等影响学习结果

这里特别说明一下特征除此之外的纬度还有很多，playload的长度、请求响应时间、该ip或该开源指纹请求次数等等，这里我们只用了2个维度来简单说明。我们继续将特征进行进行量化，可以大致得到如下每条playload内容对应的特征向量

在处理请求的过程中难免会出现特质编码[8,40],[9,35]类似这样具有奇异性的特征编码，在机器学习领域中我们需要将量纲和量纲单位限定在一个空间同样的数量级范围内，经过处理后的数据会消除奇异值带来的影响，以便我们进行综合对比评判。

min-max标准化

这里简单说一下标准化，min-Max就是把数据按比例缩放，使之落入一个小的空间里。同时不改变原有的正态分布，特征数据的取值范围并不在[ 0，1 ]之间，这点跟归一化不同。如下其中X代表要转换的对象，[Newmax，Newmin]代表范围区间。

收入范围最低收入12000，最高收入98000，标准化映射到[0，1]之间，现在要将一个人收入是73600进行标准化，映射后的结果如下

代码示例

数据预处理，这里正负样本数据结构就不再重复了，保证一个都是恶意样本，一个是正常样本即可。

def loadFile():

badXss = "./badx.txt"

goodXss = "./goox.txt"

bf = [x.strip().lower() for x inopen(badXss, "r").readlines()]

gf = [x.strip().lower() for x inopen(goodXss, "r").readlines()]

return bf, gf

特征工程阶段，一条playload或者正常样本后进行特征提取，特征拆分成两个维度，一个维度是关键词特征，一个维度是关键符号特征

def MakeFeature(x):

charList = ["onmouseover=","onload=", "onerror=", "javascript","alert", "src=", "confirm", "onblur"]

markList = ["=", ":",">", "<", '"', "'", ")","(", "."]

featureList = []

for i in x:

char_count, mark_count = 0, 0

payload =urllib.parse.unquote(i.lower().strip())

for charts in charList:

char_count = payload.count(charts)+ char_count

for marks in markList:

mark_count = payload.count(marks) +mark_count

featureList.Append([char_count,mark_count])

return featureList

训练阶段拆分40%测试集，这里笔者使用了多个算法分别进行训练，目的是想看一下几个算法在相同数据集下的训练时间和效果

def train(x, y):

x_train, x_test, y_train, y_test =train_test_split(x, y, test_size=0.4, random_state=666)

param = {'n_estimators': 200, 'max_depth':200, 'min_samples_split': 2, 'learning_rate': 0.01}

NBM = [MultinomialNB(alpha=0.01), # 多项式模型-朴素贝叶斯

BernoulliNB(alpha=0.01),

DecisionTreeClassifier(max_depth=100),

RandomForestClassifier(criterion='gini', max_depth=100,n_estimators=200),

LogisticRegression(random_state=40,solver='lbfgs', max_iter=10000, penalty='l2',multi_class='multinomial',class_weight='balanced', C=100),

LinearSVC(class_weight='balanced',random_state=100, penalty='l2',loss='squared_hinge', C=0.92, dual=False),

SVC(kernel='rbf', gamma=0.7, C=1),

# GradientBoostingClassifier(param)

]

NAME = ["多项式", "伯努利", "决策树", "随机森林", "线性回归", "linerSVC", "svc-rbf"]

for model, modelName in zip(NBM, NAME):

model.fit(x_train, y_train)

pred = model.predict(x_test)

dts = len(np.where(pred == y_test)[0])/ len(y_test)

print("{} 精度:{:.5f} ".format(modelName, dts * 100))

joblib.dump(model, './model.pkl')

预测概率，加载模型进行精度预测

def predicts(x):

clf = joblib.load('./model.pkl')

return clf.predict(x)

def run():

badx, goodx = loadFile()

goodx = MakeFeature(goodx)

badx = MakeFeature(badx)

goody = [0] * len(goodx)

bady = [1] * len(badx)

min_max_scaler = preprocessing.MinMaxScaler()

X_train_minmax =min_max_scaler.fit_transform(bady)

x = np.array(goodx + badx).reshape(-1, 2)

y = np.array(goody + bady).reshape(-1, 1)

train(x, y)

testX =["<script>alert(1)</script>", "123123sadas","onloads2s", "scriptsad23asdasczxc","onload=alert(1)"]

x =MakeFeature(testX)

forres, req in zip(predicts(x), testX):

print("XSS==>" if res == 1else "None==>", req)

预测结果

XSS==>alert(1)

None==> 123123sadas

None==> onloads2s

None==>scriptsad23asdasczxc

XSS==>onload=alert(1)“””

结果

可以看到由于特征工程阶段做的特征维度不够多特征保留的不够充分，在白样本中存在大量的干扰特征，导致最后准确率召回率都不是很高，精度大约只有74%左右，使用这种特征工程的方法笔者不是很推荐，虽然有监督方式的机器学习具有良好的可解释性，但是维护特征是一个永无止尽的过程，难度你真的想有多少智能就有多少人工吗。

原文地址：freebuf.com/articles/web/223481.html

Tags：点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

远程软件发展迅猛，ToDesk凭何异军突起？

说到远程控制，首先你会想到的是什么？是TeamViewer 还是向日葵？抑或是QQ远程还是anydesk？对，就在不久前，我们熟知的都是以上的产品，但是只2020年开始，一款新的远控产品ToDesk进入到我...【详细内容】

2021-12-27　　Tags: 机器学习点击:(3)　　评论:(0)　　加入收藏

倒计时！企业QQ即将下架，社交QQ会被下架吗？

就在今天，腾讯方面宣布将在2022年1月31日下架企业QQ和营销QQ，其实这一消息的降临并不让笔者意外，因为早在今年的10月28日20点之后，企业QQ和营销QQ就被停止了续费服务。相信很多...【详细内容】

2021-12-27　　Tags: 机器学习点击:(4)　　评论:(0)　　加入收藏

极简Windows11与iPhone/iPad互传文件

一、前言有朋友问：怎么才能让Windows电脑与iPhone方便的交换文件，我的解决方案是：利用Documents By Readdle 来完成Windows 11 与 iPhone / iPad 互传文件。苹果电脑与手机间通...【详细内容】

2021-12-27　　Tags: 机器学习点击:(2)　　评论:(0)　　加入收藏

iPhone信号问题，花10元就能解决？

果粉之家，专业苹果手机技术研究十年！您身边的苹果专家~近日，网上突然出现一则 iPhone 信号问题只需10块钱就能解决的传言，引起了小编（果粉之家）的特别关注。而根据网友表示，手机只...【详细内容】

2021-12-27　　Tags: 机器学习点击:(2)　　评论:(0)　　加入收藏

惊人数据：App Store中40万应用根本没人下载过

这是很久以前的一则数据，我在iOS平台开发了“先知 - 优质生活”App，本想依靠封闭式环境，广告少体验不错等优点。会有一定的下载量，没想到开发完成后，就被App store埋藏起来了。个...【详细内容】

2021-12-27　　Tags: 机器学习点击:(3)　　评论:(0)　　加入收藏

个人所得税递延纳税报告

个人所得税递延纳税报告【业务概述】自然人符合规定条件的，可以申请个人所得税递延纳税，主要包括以下情形：1.非上市公司股权激励个人所得税递延纳税备案非上市公司授予本公司员...【详细内容】

2021-12-27　　Tags: 机器学习点击:(3)　　评论:(0)　　加入收藏

非常实用的 Python 库，推一次火一次

Python 是一个很棒的语言。它是世界上发展最快的编程语言之一。它一次又一次地证明了在开发人员职位中和跨行业的数据科学职位中的实用性。整个 Python 及其库的生态系统使...【详细内容】

2021-12-27　　Tags: 机器学习点击:(1)　　评论:(0)　　加入收藏

等离子电视技术先进，为何还是被淘汰？液晶电视到底有何优势？

20年前，等离子电视凭借过硬的技术和显示效果，深受大众喜爱，人们也常说“外行买液晶，内行选等离子”，可见等离子电视在人们心中的地位不一般。现如今，大数据告诉我们，技术过硬不代表...【详细内容】

2021-12-27　　Tags: 机器学习点击:(2)　　评论:(0)　　加入收藏

App制作的流程是什么？如何制作App开发流程？

　　1、明确产品的需求分析+功能　　这是最基本的也是第一步，我们要明确自己或者客户真的想要开发一款app应用，其次就要了解到底要开发什么功能什么类别和种类的app应用。所...【详细内容】

2021-12-27　　Tags: 机器学习点击:(1)　　评论:(0)　　加入收藏

Python中的菜单驱动程序

菜单驱动程序简介菜单驱动程序是通过显示选项列表从用户那里获取输入并允许用户从选项列表中选择输入的程序。菜单驱动程序的一个简单示例是 ATM（自动取款机）。在交易的情况下...【详细内容】

2021-12-27　　Tags: 机器学习点击:(4)　　评论:(0)　　加入收藏

▌简易百科推荐

可解释的AI (XAI)：如何使用LIME 和 SHAP更好地解释模型的预测

作为数据科学家或机器学习从业者，将可解释性集成到机器学习模型中可以帮助决策者和其他利益相关者有更多的可见性并可以让他们理解模型输出决策的解释。在本文中，我将介绍两个...【详细内容】

2021-12-17　　deephub　　　　Tags:AI 　点击:(15)　　评论:(0)　　加入收藏

AI系统中（机器学习算法）导致偏差的原因总结

基于算法的业务或者说AI的应用在这几年发展得很快。但是，在实际应用的场景中，我们经常会遇到一些非常奇怪的偏差现象。例如，Facebook将黑人标记为灵长类动物、城市图像识别系统...【详细内容】

2021-11-08　　数据学习DataLearner　　　　Tags:机器学习　点击:(32)　　评论:(0)　　加入收藏

人工智能会超过人类吗？顶尖科学家：人工智能在常识判断方面具有局限

11月2日召开的世界顶尖科学家数字未来论坛上，2013年诺贝尔化学奖得主迈克尔·莱维特、2014年诺贝尔生理学或医学奖得主爱德华·莫索尔、2007年图灵奖得主约瑟夫·斯发斯基、1986年图灵奖得主约翰·霍普克罗夫特、2002...【详细内容】

2021-11-03　　张淑贤　　证券时报　　Tags:人工智能　点击:(39)　　评论:(0)　　加入收藏

火爆业界的边缘计算，到底是什么？

鉴于物联网设备广泛部署、5G快速无线技术闪亮登场，把计算、存储和分析放在靠近数据生成的地方来处理，让边缘计算有了用武之地。边缘计算正在改变全球数百万个设备处理和传输...【详细内容】

2021-10-26　　　　计算机世界　　Tags:边缘计算　点击:(45)　　评论:(0)　　加入收藏

这725个机器学习术语表，太全了

这是几位机器学习权威专家汇总的725个机器学习术语表，非常全面了，值得收藏！英文术语中文翻译 0-1 Loss Function 0-1损失函数 Accept-Reject Samplin...【详细内容】

2021-10-21　　Python部落　　　　Tags:机器学习　点击:(43)　　评论:(0)　　加入收藏

程序员10 个入门级的机器学习开源项目

要开始为开源项目做贡献，有一些先决条件：1. 学习一门编程语言：由于在开源贡献中你需要编写代码才能参与开发，你需要学习任意一门编程语言。根据项目的需要，在后期学习另一种语言...【详细内容】

2021-10-20　　TSINGSEE青犀视频　　　　Tags:机器学习　点击:(37)　　评论:(0)　　加入收藏

Logistic Regression：最基础的神经网络

SimpleAI.人工智能、机器学习、深度学习还是遥不可及？来这里看看吧~ 从基本的概念、原理、公式，到用生动形象的例子去理解，到动手做实验去感知，到著名案例的学习，到用所学来实现...【详细内容】

2021-10-19　　憨昊昊　　　　Tags:神经网络　点击:(47)　　评论:(0)　　加入收藏

直击痛点 NLP技术的价值和落地｜超级观点

语言是人类思维的基础，当计算机具备了处理自然语言的能力，才具有真正智能的想象。自然语言处理（Natural Language Processing, NLP）作为人工智能（Artificial Intelligence, AI）的核心技术之一，是用计算机来处理、理解以及运...【详细内容】

2021-10-11　　　　36氪　　Tags:NLP 　点击:(48)　　评论:(0)　　加入收藏

边缘计算是个啥？为什么说发展5G离不开它？

边缘计算是什么？近年来，物联网设备数量呈线性增长趋势。根据艾瑞测算， 2020年，中国物联网设备的数量达74亿，预计2025年突破150亿个。同时，设备本身也变得越来越智能化，AI与互联网在...【详细内容】

2021-09-22　　汉智兴科技　　　　Tags: 　点击:(54)　　评论:(0)　　加入收藏

学了这些基础算法，人工智能就算入门了

说起人工智能，大家总把它和科幻电影中的机器人联系起来，而实际上这些科幻场景与现如今的人工智能没什么太大关系。人工智能确实跟人类大脑很相似，但它们的显著差异在于人工智能...【详细内容】

2021-09-17　　异步社区　　　　Tags:人工智能　点击:(57)　　评论:(0)　　加入收藏

推荐资讯

远程软件发展迅猛，ToDe	倒计时！企业QQ即将下架
极简Windows11与iPhon	iPhone信号问题，花10元
惊人数据：App Store中4	个人所得税递延纳税报
非常实用的 Python 库	等离子电视技术先进，为