微信登录
注册忘记密码
查看: 1643|回复: 1

人脸识别—你需要的人工智能生物识别AI数据集全在这里

[复制链接]

签到天数: 1 天

[LV.1]初来乍到

发表于 2022-7-27 13:21:52 | 显示全部楼层 |阅读模式
一.生物识别技术定义

生物识别技术主要是指通过人类生物特征进行身份认证的一种技术,即利用人体固有的生物特性,如人脸,指纹、虹膜、掌纹、指静脉等和行为特征,如笔迹、声音、步态等来进行个人身份的鉴定。由于人类特征通常具有唯一性、便携性或终身不变等特点以方便自动识别和身份验证,因此生物识别认证技术较传统认证技术存在较大的优势。具体来说,生物识别系统是对生物特征进行取样,提取其唯一的特征并转化为数字代码,并将这些代码组成特征模板,通过微处理器和各种电子元器件提高精度,将生物识别系统广泛的应用在各个领域。

二.生物识别技术和人工智能的关系

生物识别是人工智能的感知层和入口。

在人工智能产业链中,生物识别是人工智能领域的一种应用技术,而且是人工智能领域里应用场景较为广泛的技术。作为人工智能的感知层,为各应用领域和技术领域采集生物特征数据;作为人工智能的入口,通过身份认证,实现人工智能“识人”的第一步。此外生物识别技术本身又利用人工智能领域的大数据技术和深度学习算法技术来实现技术的不断迭代升级。因此生物识别技术既是人工智能领域的重要一环,二者又是相辅相成的关系。

三.全球生物识别市场规模

我国生物识别市场规模从2002年起十几年间一直保持高速增长,人工智能产业是从15年起步,2019年进入起步期,未来十年将是人工智能产业竞争的重要窗口期。随着人工智能产业的腾飞,生物识别也将迎来更广阔的市场潜力。MarketsandMarkets最新发布的研究报告显示,2020全球生物识别市场规模达到366亿美元,预计到2025年将增加至686亿美元,在预测期内(2020—2025年)的复合年增长率为13.4%。

四.生物识别技术商业化进程的关键驱动

人工智能大数据深度学习算法和多模态识别技术为生物识别技术提供深层次的支持,是生物识别技术商业化进程的重要推动因素。

1.深度学习算法

在生物识别领域,是通过模拟脑科学中神经元之间信息流的传播方式,抽象出一种数学模型,它可以通过端对端(End-to-End)的训练,从不同的抽象层级提取数据的本质特征,从而完成复杂的分类或回归任务。此外,深度学习算法还能不断优化算法训练,自动学习到精准的表征,形成具有深度的结构模型,增强表达能力、提高效率。

2.多模态识别

人类时刻通过视觉、听觉、嗅觉、触觉在内的多个感官与世界产生交集,其中所包含的每一种信息形式—视频、图像、文字、语音、味道、质感等都是一种模态。通过融合人体多种生物特征进行身份识别的技术就是多模态识别,人工智能不再局限于单一模态下的交互,可以像人类一样同时感知多种类型信息,身份认证及识别过程会更加精准、安全,整体系统的性能提高,满足不同的应用场景。

五.生物识别技术应用

目前生物识别技术已经得到广泛应用,按照人体的不同生物特征划分,可以分为指纹识别、人脸识别、虹膜识别、语音识别、掌纹识别、唇语识别、指静脉识别、步态识别等。

按照应用领域划分,主要应用于智能驾驶、智能安防、智能家居、智慧城市、智慧校园等场景。利用不同生物识别技术的特点和各自独特的优势,可以满足不同应用场景的需求。

六.常见生物识别技术的特点与难点详解

生物特征识别技术应用中,应对不同生物特征,可能会选用不同的识别技术,每一种技术都有其特点和优势,下文以智能驾驶车载场景为例,分析不同生物识别技术的特点与难点。当然,多模态识别技术是最火爆的发展方向,正在越来越多的商业场景落地。

1.人脸识别技术

●技术特点

人脸识别技术可以在较低的画质、较大的偏转角度以及部分遮挡的情况下,迅速的匹配底库中的数据,实现智能化的体验。可以轻松实现毫秒级的人脸检测,支持彩色、灰度、近红外等各种图像和视频类型,支持根据证件自动录入海量数据。可以适应侧脸、部分遮挡、表情变化、发型、妆容、眼镜、复杂光照场景等变化。并且具备完善的活体检测技术,防止2D/3D的恶意攻击。

●应用难点

成像问题:摄像头需要捕捉到用户的人脸,成像质量较差的情况下,直接影响识别率。通过红外照明技术,已经可以在无感的情况下解决夜晚的人脸识别问题。随着社会环境的变化,戴口罩转变为典型场景,人脸识别解决大面积遮挡问题的同时会引入精度的降低。

攻击问题:面对采用照片、人脸面皮或者3D头模做的恶意攻击问题,视觉算法需要具有完整的活体检测功能,并且具备较高的精度指标。

●人脸识别数据解决方案

①2000人脸多姿态&多表情数据集:2000人每人60张多姿态照片和9张表情照片;不同性别、不同年龄段,不同光照,不同采集环境;人脸姿态、人种、性别和年龄的标签标注准确率超过96%;可用于人脸识别,表情识别、年龄检测等任务。

②1000人3D活体检测数据集:1,000人每人采集120张照片;多表情、人脸多姿态、对抗样本、多种光照条件、多种场景;标注人物id、人种、性别、年龄、人脸动作、采集场景、光照条件;可用于3D人脸识别、3D活体检测等任务。

现有训练集之外,景联文科技可结合客户具体业务场景、应用领域特性,设计匹配的可用于算法模型开发、训练、拓展优化的人脸数据采集标注方案。

2.指纹识别技术

●技术特点

人的手指末端正面皮肤上凸凹不平产生的纹线,纹线的起点、终点、结合点和分叉点,称为指纹的细节特征点。指纹识别技术通过分析指纹可测量的特征点,从中抽取特征值,然后进行认证。指纹识别分有光学式、压敏式、电容式、电感式、热敏式和超声波式等。

●应用难点

以智能驾驶汽车应用场景为例,汽车更多的工作在是户外,每天停在外面风吹日晒,很容易会因为外面的各种因素导致车子的指纹产生不灵敏或者损坏的现象,而且把指纹解锁的设备安装在门把手内,难以保证不会遭到人为的破坏。如果把指纹识别放在传统汽车的“无钥匙进入”位置,那指纹信息首先要传送到“认证控制器”,控制器再把认证信息传到汽车的IBU模块,然后汽车的CPU再通过对比决定是否执行开门指令,运算时间会导致开车门效率大幅降低,让人觉得指纹识别不仅增加了成本,降低了安全,还制造了很多麻烦。

●指纹识别数据解决方案

①1476人真假指纹采集数据集:1476个id1337080张图像;假指纹采集材料:新型电容胶、固体胶、橡皮胶、指甲油、粘土、扫描打印、铜粉、新型电容胶等60余种;真指纹采集环境:干燥环境、湿润环境、低温环境、强光环境、不同角度、不同力度按压。

现有训练集之外,景联文科技可结合客户具体业务场景、应用领域特性,设计匹配的可用于算法模型开发、训练、拓展优化的指纹数据采集标注方案。

3.行为识别技术

●技术特点

通过人体行为识别、高精度三维人脸检测、目标轨迹跟踪、高精度微表情捕捉及非接触式生物特征测量等方式,多维度对目标行为进行检测,从而保障识别结果的精准度。以智能驾驶场景为例,通过检测追踪包括头部朝向、面部表情、视线方向、手势及肢体关键点等人体视觉特征,分析驾驶员及乘客的身份信息、意图和行为,技术需要精确检测出驾乘人员的身份、性别年龄、五官、视线方向、头部朝向、手势、肢体关节点等信息以及他们的随身物品。通过对这些关键信息的检测,状态监测技术可以应用在不同的功能上,比如:驾驶员监控、乘客监控、舱内物品检测和驾舱人机交互。

●应用难点

行为特征属于高维时序特征,没有通用的方法有效提取,单个检测模型难以覆盖所有需要监测的行为。要达到多种行为的准确检测,需要多个达到一定复杂程度的检测模型,也就需要计算系统有比较高的计算能力。目前缺少有关具体场景的行为视频数据库,需要采集、制作、标注针对训练和测试的数据,数据的建立包含大量标注工作,人工标注的成本高且费时费力。

●行为识别数据解决方案

①500人驾驶员行为采集数据集:多人种、多年龄段、多时间段、多种行为(危险驾驶行为、疲劳驾驶行为、视线偏移行为);采集设备:可见光和红外双目摄像头;白天、傍晚和夜晚;标签标注准确率95%以上;可用于驾驶员行为分析等任务。

②100人乘客行为识别数据集:多年龄段、多时间段、多种行为(正常行为、晕车行为、乘客困意行为、乘客遗落物品行为);可见光和红外双目摄像头;白天、傍晚、夜晚;标签标注准确率95%以上;可用于乘客行为分析等任务。

现有训练集之外,景联文科技可结合客户具体业务场景、应用领域特性,设计匹配的可用于算法模型开发、训练、拓展优化的行为数据采集标注方案。

4.虹膜识别技术

●技术特点

虹膜识别是基于对人眼虹膜图像的扫描进行身份辨识,眼睛的虹膜形成由遗传基因决定,利用虹膜的终身不变性和差异性来实现对身份的甄别。虹膜识别使用红外摄像技术获取图像的丰富细节,非接触性的特质带来更高的效率和更优质的体验。由于一个人的两只眼睛的虹膜是不同的,系统扫描一只眼睛进行身份验证识别的出错的概率为百万分之一,而同时扫描两只眼睛的出错概率更会降至万亿分之一,具有更高的准确率。

●技术难点

虹膜图像采集不同于其他识别技术,需要使用专业的设备,增加了应用成本。虹膜识别要求在较小的区域范围内采集到清晰完整的虹膜图像,摄像头的视场角一般比较小,同时对遮挡比较敏感,且系统无法在阳光直射下捕捉干净的虹膜图像,光照环境和安装布置位置对其影响较大。虹膜对用户交互配合度的要求更高,目前虹膜可支持的采集距离是1米左右,超过了距离或者被识别物体进行以一定速率进行移动时识别度就会大幅下降。

●虹膜识别数据解决方案

景联文科技可结合客户具体业务场景、应用领域特性,设计匹配的可用于算法模型开发、训练、拓展优化的虹膜数据采集标注方案。

5.指静脉识别技术

●技术特点

指静脉识别技术利用手指内的静脉分布图像来进行身份辨识,是依据人类手指中流动的血液可吸收特定波长的光线特性,使用特定波长光线对手指进行照射,得到手指静脉的清晰图像。指静脉隐藏在身体内部,被复制或者盗用的机会很小安全等级高,受生理和环境因素的影响小,克服了皮肤干燥,油污,灰尘,皮肤表面异常等因素适用性强。由于脱离生命主体的手指无法使用,实现身份标识的唯一性。指静脉识别技术除了识别速度快,识别精准之外,对算力的要求比指纹高,比人脸低,对后端的处理器性能要求依赖性不强。

●应用难点

受算法限制,指静脉识别技术对手指采集区域有严格要求,如果采集和认证时的手指区域偏差较大,会在一定程度上影响识别的准确率,甚至是不能互认识。目前指静脉识别产品采用光学成像形式采集血管图像,因为设备尺寸相较于半导体指纹模组偏大,而且需要手指接触使用,冬天存在冻手影响体验的问题。

●指静脉识别数据解决方案

景联文科技可结合客户具体业务场景、应用领域特性,制定匹配可用于算法模型开发、训练、拓展优化的指静脉数据采集标注方案。

七.景联文科技为生物识别技术提供一站式数据解决方案

景联文科技成立于2012年,行业领先的AI基础数据服务企业,全国信标委生物特征识别分委会移动设备工作组成员单位,全国信标委人工智能分委会成员单位。在指纹技术领域,持有多项自主知识产权专利及软件著作权,曾3次参与国家标准制定。《互联网周刊》&eNet研究院、德本咨询联合发布《2021数据标注公司排行》,景联文科技凭借完备的标注管理流程和丰富的项目实操经验,荣登2021年数据标注公司TOP15。

现有数据集

自有数据库包含多种类型的数据产品。

2000人脸多姿态&多表情数据集;

1000人3D活体检测数据集;

1476人真假指纹采集数据集;

500人驾驶员行为采集数据集;

100人乘客行为识别数据集;

500人唇语视频数据集;

800小时噪音环境口音普通话手机采集语音数据集;

......

项目经验

景联文科技目前已在智能安防、智能驾驶、智能家居、虚拟客服、智慧金融,新零售,智慧校园等数十个场景为客户提供一站式数据解决方案,拥有丰富的场景搭建能力和数据采集标注经验。

在全国范围内拥有5个标注基地,220名全职人工智能训练师,文本、语音、图像、视频现有数据库超300TB;并于2020年上线了自有标注平台,涵盖了绝大多数主流标注工具,支持语义分割、拉框标注、多边形标注、关键点标注、3D点云、2D3D融合标注、图片分类、声纹识别、ASR转写、韵律标注、NLP、文本分类、OCR转写、情绪判断等多种标注业务。

截至2021年,景联文科技已与阿里巴巴、华为、vivo、美团、字节跳动、滴滴、陌陌、海康威视、大华、宇视、同济大学、中国人民大学、工信部中国电子技术标准化研究院、公安部一所等60+企业、机构达成深入合作。

数据安全管理

成立景联文数据信息与隐私保护工作小组,定期组织项目经理,质检员,标注员进行数据安全和隐私保密的培训考试,制定完善信息隐私保护方案,所采集生物特征相关数据集均获得被采集者书面或电子授权;项目人员办公场所具备独立门禁系统、安防系统和参访制度,使用WorkWin管理软件监控设备,标注所用电脑安装USB管控软件,可按客户要求禁用指定软件。保证采集数据合规,保护客户数据隐私。

未来,景联文科技也将不断升级和完善多场景AI数据解决方案,为生物识别技术的发展贡献力量,为人工智能企业提供更优质的数据集产品和数据采集标注服务。


声明:以上内容来源于网络,如有侵权请联系我们(123@shiyan.com)删除!

签到天数: 359 天

[LV.8]以坛为家I

发表于 2022-7-27 13:23:03 | 显示全部楼层
这个数据怎么卖?
回复 支持 反对

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册 微信登录

本版积分规则