Instagram 的联合创始人兼首席技术官 Mike Kreiger 说:“计算机视觉和机器学习其实已开始流行起来,但是对于大多数人来说,计算机看了图像后看到了什么这方面还是比较模糊。”
近年来,计算机视觉这个神奇的领域已渐成气候。该技术在世界各地已有广泛的应用,而我们才开了个头!
我在这个领域最喜欢的事情之一是我们的社区拥抱开源这个概念。连各大科技巨头也愿意与每个人分享新的突破和创新,以便这项技术不会成为“有钱人的玩物”。
人脸检测就是这样一种技术,它在实际用例下拥有广泛的潜在用途(如果使用得当且符合伦理道德)。在本文中我将介绍如何使用开源工具构建一种功能强大的人脸检测算法。
人脸检测大有前景的应用
让我举几个表明人脸检测技术在普遍使用的典例。我确信你肯定在某个时候碰到过这些用例,只是没有意识到幕后使用了什么技术!
比如,Facebook 把图像手动标记换成了为上传到平台的每张图片建议自动生成的标记。
Facebook 使用一种简单的人脸检测算法来分析图像中人脸的像素,并将其与相关用户进行比较。
我们将学习如何自行构建一个人脸检测模型,但在深入介绍这方面的技术细节之前,不妨讨论另外几个用例。
我们习惯于使用最新的“人脸解锁”功能解锁手机。这是表明如何使用人脸检测技术来保持个人数据安全性的一个很小的例子。
同样技术可以在更大的规模内予以实现,使摄像头能够捕捉图像、检测人脸。
在广告、医疗保健和银行等行业,有另外几个鲜为人知的人脸检测应用。在大多数公司或甚至在许多会议中,你需要携带身份证件才能进入。
但如果我们能找到一种方法,不需要携带任何身份证件就能进入,将会怎么样?
人脸检测有助于使这个过程流畅简单。人只要看一眼摄像头,它就会自动检测要不要允许他/她进入。
人脸检测的另一个值得关注的应用是可以计算参加活动(比如会议或音乐会)的人数。
我们安装了一个可以捕获参与者图像并为我们提供总人数的摄像头,而不是手动计算参与者。这有助于使整个过程自动化,并节省大量手动工作。是不是觉得很有用?
在本文中我将着重介绍人脸检测的实际应用,简单介绍其中的算法是如何工作的。
如何使用手头开源工具实现人脸检测
你已了解了人脸检测技术的潜在应用场景,不妨看看我们如何使用手头的开源工具来实现这项技术。
具体就本文而言,这是我使用和推荐使用的软硬件:
你还可以在其他任何适当的系统上使用笔记本电脑的内置摄像头或闭路电视摄像头用于实时视频分析,而不是采用我使用的这套设置。
不妨更深入一点地探讨这几点,确保在构建人脸检测模型之前已正确设置好了一切。
第 1 步:硬件设置
你要做的第一件事是检查网络摄像头是否设置正确。Ubuntu 中的一个简单技巧是查看设备是否已被操作系统注册。
可以按照下列步骤来操作:
这里我们可以看到网络摄像头已正确设置。硬件方面就是这些!
第 2 步:软件设置
①安装 Python
本文中的代码是用 Python 版本 3.5 构建的。虽然有多种方法来安装 Python,但我建议使用 Anaconda,这是最流行的数据科学 Python 发行版。
这是系统中安装 Anaconda 的链接:
https://www.anaconda.com/download
②安装 OpenCV
OpenCV(开源计算机视觉)是一个旨在构建计算机视觉应用程序的库。它有许多用于图像处理任务的预编写函数。
想安装 OpenCV,对库进行 pip 安装:
pip3 install opencv-python
③安装 face_recognition API
最后,我们将使用 face_recognition,这号称是世界上最简单的面向 Python 的人脸识别 API。
想安装它,请运行下列命令:
pip install dlib pip install face_recognition
深入了解实现方式
现在你已设置好了系统,终于可以深入了解实际的实现方式。首先,我们将迅速构建程序,然后对其分解以了解我们所做的工作。
先创建一个文件 face_detector.py,然后拷贝如下所示的代码:
# import libraries import cv2 importface_recognition # Get a reference towebcam video_capture =cv2.VideoCapture("/dev/video1") # Initialize variables face_locations = [] while True: # Grab a single frame of video ret, frame = video_capture.read() # Convert the image from BGR color (whichOpenCV uses) to RGB color (which face_recognition uses) rgb_frame = frame[:, :, ::-1] # Find all the faces in the current frameof video face_locations =face_recognition.face_locations(rgb_frame) # Display the results for top, right, bottom, left inface_locations: # Draw a box around the face cv2.rectangle(frame, (left, top),(right, bottom), (0, 0, 255), 2) # Display the resulting image cv2.imshow('Video', frame) # Hit 'q' on the keyboard to quit! if cv2.waitKey(1) & 0xFF == ord('q'): break # Release handle tothe webcam video_capture.release() cv2.destroyAllwindows()
然后,输入以下命令,运行该 Python 文件:
python face_detector.py
如果一切正常,会弹出一个新窗口,实时人脸检测在运行中。
总结一下,这是我们上述代码执行的操作:
是不是很简单?如果你想了解更具体的细节,我已在每个代码部分中包含注释。你可以随时返回查看。
人脸检测的用例
乐趣并不仅限于此!我们能做的另一件很酷的事情就是围绕上述代码构建完整的用例。而且你无需从头开始,我们只要对代码进行几处小小的改动即可。
比如说,假设你想构建一个基于摄像头的自动系统来实时跟踪说话人的位置。根据其位置,系统转动摄像头,以便说话人始终在视频的中间。
我们该如何解决这个问题?第一步是构建识别视频中一个人或多个人的系统,并关注说话人的位置。
不妨看看我们如何实现这一点。为了本文需要,我从 Youtube 上下载了一段视频(https://youtu.be/A_-KqX-RazQ),视频中有个人在 2017 年 DataHack 峰会上讲话。
首先,我们导入必要的库:
import cv2 importface_recognition
然后,阅读视频并获取长度:
input_movie =cv2.VideoCapture("sample_video.mp4") length = int(input_movie.get(cv2.CAP_PROP_FRAME_COUNT))
之后,我们创建一个拥有所需分辨率和帧速率的输出文件,与输入文件类似。
加载说话人的示例图像以便在视频中识别他:
image =face_recognition.load_image_file("sample_image.jpeg") face_encoding =face_recognition.face_encodings(image)[0] known_faces = [ face_encoding, ]
这一切都已完成,现在我们运行一个循环,它将执行以下操作:
不妨看看这个代码:
# Initialize variables face_locations = [] face_encodings = [] face_names = [] frame_number = 0 while True: # Grab a single frame of video ret, frame = input_movie.read() frame_number += 1 # Quit when the input video file ends if not ret: break # Convert the image from BGR color (whichOpenCV uses) to RGB color (which face_recognition uses) rgb_frame = frame[:, :, ::-1] # Find all the faces and face encodings inthe current frame of video face_locations =face_recognition.face_locations(rgb_frame, model="cnn") face_encodings =face_recognition.face_encodings(rgb_frame, face_locations) face_names = [] for face_encoding in face_encodings: # See if the face is a match for theknown face(s) match =face_recognition.compare_faces(known_faces, face_encoding, tolerance=0.50) name = None if match[0]: name = "Phani Srikant" face_names.Append(name) # Label the results for (top, right, bottom, left), name inzip(face_locations, face_names): if not name: continue # Draw a box around the face cv2.rectangle(frame, (left, top),(right, bottom), (0, 0, 255), 2) # Draw a label with a name below theface cv2.rectangle(frame, (left, bottom -25), (right, bottom), (0, 0, 255), cv2.FILLED) font = cv2.FONT_HERSHEY_DUPLEX cv2.putText(frame, name, (left + 6,bottom - 6), font, 0.5, (255, 255, 255), 1) # Write the resulting image to the outputvideo file print("Writing frame {} /{}".format(frame_number, length)) output_movie.write(frame) # All done! input_movie.release() cv2.destroyAllWindows()
然后代码会给出这样的输出:
人脸检测真是了不起的本领。
结论
恭喜!你现在知道如何为许多潜在用例构建人脸检测系统了。深度学习是非常迷人的领域,我很期望下一步的方向。
我们在本文中学习了如何利用开源工具构建具有实际用途的实时人脸检测系统。
我鼓励各位构建众多这样的应用,并自己试一试。相信我,你能学到好多东西,而且蛮有意思。
【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】