
- 收藏
- 加入书签
基于大数据分析和智能算法的出入境/公安犯罪分析与预测研究
摘要:随着改革开放的深入,在华的外籍人士数量也在增加,犯罪活动风险也可能增加,对潜在的犯罪嫌疑人进行有效的识别和预测,对于公安机关的出入境管理工作意义重大。在对犯罪数据进行可视化分析时,可以将犯罪数据按照其使用目的、结构等要素划分为3大类:犯罪时间数据、犯罪文本数据、犯罪网络关系数据。在对数据进行解析的过程中,要按照 HDFS(Hadoop Distributed File System)格式对收集到的犯罪进行行为数据的规则分析和规则的生成,并根据 MapReduce的⽅式对这些犯罪进行处理。另外,本文建立基于大数据分析和智能算法建立外籍人员犯罪风险预测模型,为在华出入境流动人口的违法行为进行实时预警,并为相关政策制定提供依据。本文模型采用后,犯罪率明显降低,采用前犯罪率0.578,采用后犯罪率0.358,基于大数据分析和智能算法的出入境/公安犯罪分析与预测方法有助于对可能的违法人员进行分类与预警。
关键词:公安犯罪 犯罪预测 出入境 大数据分析 智能算法
1.引言
在“互联网+”产品层出不穷的今天,犯罪方式也在发生着变化,犯罪主体智能化程度越来越高,作案手段也越来越隐蔽,大数据时代的来临使中国的犯罪预警工作在全球范围内面临着最大的挑战。利用大数据系统,公安部门能够对社会资源进行科学的整合,从而对发案进行预防和控制,从而建立起一套严格的控制制度,从而使网络诈骗犯罪的控制工作得到全面的配合,才能保证整个社会都能得到控制。本文利用大数据分析方法,利用智能化算法,提高公安出入境治安案件的预报准确率,从而有效地打击各类违法犯罪。
本文首先给出基于大数据分析和智能算法的出入境/公安犯罪分析与预测的探究背景,指出当前出入境犯罪的可能性,其次建立基于大数据分析和智能算法建立外籍人员犯罪风险预测模型,本研究拟利用多种资料来源,搜集境外人士的个人资料、移民状况、教育背景、工作情况、居住情况等资料。另外,本文还将研究社会媒体、金融交易等与刑事案件有关的数据。最后对外籍人员犯罪风险预测模型进行验证。
2.相关工作
目前中国出入境管理领域的犯罪形式也在发生着深刻的转变,各种新的犯罪手段层出不穷,加之法律规定的滞后,使实际打击和惩处工作困难重重。张璇认为传统的犯罪开始向以互联网为载体的新型犯罪演变,网络犯罪呈高发态势,对社会的危害极大,因此,它是公安机关开展工作的重要方向[1]。李晓临认为犯罪学课程是警察学院的一门专业基础课,但是很长一段时间里,它都没有和公安工作进行很好地结合起来[2]。刘剑郁认为《食品药品、环境犯罪侦查技术》是教育部于2021年新增的本科专业,旨在为中国行政执法和刑事司法部门培养具有食品药品、环境违法案件情报研判、案件侦查、法适用、检验鉴定、预测预警等方面的专业知识人才[3]。针对当前警察研究中出现的理论成果很难向政策和实际操作转变的难题,白羽拟从理论研究与实践两个层面,对美国转化犯罪学的理论与实践进行深入探讨[4]。近几年来,铁路警察破获的电信网络诈骗案件数量、涉案金额均呈逐年上升趋势,赵高旺认为应借力公安改革,深化路地警务融合;深化铁路警察体制改革,打造一支高素质的刑事侦查队伍[5]。但是他们的研究无法对外籍人士进行犯罪预测。
虽然当前,已完成对人员因私出入境的电脑受理、审核和审批,还设立了外籍人士临时住所登记、台湾同胞赴内地的信息管理等制度,但是,上述系统的使用仍然仅限于出入境管理的个别部门,出入境管理系统还没有与基层派出所相连接,境外人员的基本信息和住宿登记的信息不能进行共享[6-7]。在此背景下,运用大数据技术,以出入境公共安全犯罪数据构建为龙头,合理运用智能算法,使公安机关的工作效率得到整体提升,并对各级各类管理业务进行规范化,已迫在眉睫[8]。
3.方法
3.1入境人员数据分类的重要性
数据分类是基于数据仓库,通过高效的分析方法和工具,运用人工智能、机器学习、统计学和大数据等技术,在常规的业务型数据库功能(增加、删除、修改、查询、统计等)上,对原始数据进行自动化分析,并进行归纳推理,从中发现隐藏的规律,并对目标的行为趋势进行预测,以便辅助决策和调整[9-10]。随着中国对外交往的加深,大批外籍人士进入中国,民族也由单纯的亚洲国家扩展至欧美南美北欧,这些人大多是来求学、探亲、旅游、经商的,推动了国际交往,但也有一些人是来中国做违法行为的。所以,如何对这些潜在的犯罪嫌疑人进行有效的识别和预警,是当前中国公安出入境管理工作的一个重要课题。特别是对在中国境内的外籍人士进行识别和识别,是一个非常困难的问题。为了促进中国同世界各国在各个方面的交流,中央和国务院出台了一系列的政策,方便外国学者到中国投资学习,达到扩大需求,拉动经济增长的总目的。最近,又将日本、文莱和新加坡,扩大到约旦、甘比亚和格瑞那达,停留时间也从十五天延长到三十天,也就是说,不同国家的人,只要拿着自己的护照,就可以自由进出中国(含港澳),而不需要到驻中国大使馆、领馆和出入境管理局申请,就可以在中国逗留达30日。
但是,有些外籍的敌对势力和反华势力,却借着相互免签的机会,带着本国护照到中国从事非法活动,致使中国驻国外使、领馆和内地公安机关在签发来中国正常旅游、探亲、商务、就学、任教等活动时,都不敢轻易签发多次签证,特别是一年及一年以上的多次签证或居留许可,更是凤毛麟角。其结果是,一些的确与中国有业务往来的外国企业没有得到政策的支持,他们的管理人员无法获得一年以上的访问签证,一些与我们有长期业务往来的管理人员需要三个月才能办理一次,有的因为提交的有关申请资料不完整,无法获得超过1年(包括一年)的签证,这给企业的正常商业活动带来了很大的负面影响,一些中外合作投资项目的商业谈判也因为这些原因而被取消,这既损害了我们的对外形象,也给我们的企业在国际上留下了不好的印象,违背了人民公安为人民服务的宗旨。为此,本文运用大数据方法,通过对大量在中国长期居住的外国人和持有多次签证的外国人的违法犯罪记录进行计算,期望能够找到犯罪的规律和趋势,理解各种犯罪行为的相互联系,努力找到导致犯罪行为的因素[11]。该问题的研究对于中国公安出入境管理和司法实践中都有着十分重要的现实意义,这也是本文的重点所在。
3.2大数据分析和智能算法的犯罪案件时空分布
在对犯罪数据进行可视化分析时,可以将犯罪数据按照其使用目的、结构等要素划分为3大类:犯罪时间数据、犯罪文本数据、犯罪网络关系数据[12]。
(1)犯罪时间数据。将不同类型的犯罪数据分为两类,一类是静态的,一类是动态的。静态时空犯罪数据,刻画了犯罪嫌疑人在特定时间的空间属性,如警情、犯罪嫌疑人居住地等[13];动态时空数据是指对犯罪嫌疑人时空轨迹、车辆时空轨迹、犯罪时间序列等具有持续不断变化的时空特性的刻画。在社会、人文、地理、情绪等多种因素的共同作用下,犯罪时空数据呈现出多源异质、多尺度和时空演化特征,呈现出复杂多变的态势。比如,与一般的时间序列相比较,刑事案件的时间序列表现出较大的随机性和波动性。
(2)犯罪文本数据。公安机关收集的各种文字资料,例如案情简介、文字记录、法律文书等。这种类型的数据中蕴含着大量的警察要素的各种属性,例如案情的发展过程、人物的属性、发生的地点、时间、方法和工具等。尽管涉及到的内容形式比较固定,但其操作复杂程度高,语义表达方法因人而异,文本中的实体元素维数也多。与其它领域的文本数据相比,这类数据呈现出半结构化、高维、多语义、多冗余的特征。
(3)犯罪网络关系数据。按照数据的相关性程度,可以将其划分为“强相关性”和“弱相关性”两类。在这些数据中,强的相关性说明二者必然有一定的联系,而弱的相关性则表明它们仅仅是有可能存在联系。犯罪行为的强相关性与犯罪的弱相关性是犯罪人与事件的网络联系。犯罪网络的层级和节点与案件的复杂性密切相关,这类数据具有体量大、多中心、动态关联、稀疏不一致性等特征。
3.3犯罪⾏为特征数据解析
在进行数据收集的时候,主要依据的是服务器上的犯罪数据记录收集规则确定的。与传统的数据收集方式相比, Hadoop技术可以在收集数据的时候达到同步和汇聚的目的。在进行犯罪行为分析的时候,它的分析环境是非常重要的。在对数据进行解析的过程中,要按照 HDFS格式对收集到的犯罪进行⾏为数据的规则分析和规则的生成,并根据 MapReduce的⽅式对这些犯罪进行处理。
在制订和划分犯罪⾏为数据分析规则时,应以对犯罪⾏为的数据进行统计及归类的结果为基础。犯罪⾏为在完成数据分析之后,要在对应的路径中保存解析结果。在分析的时候,执行的时间、输入和输出的路径信息必须是一致的。犯罪⾏为数据分析的规则,是要对犯罪的行为数据进行甄别,并获得完整的犯罪行为的分析规则。通过对数据进行检验,将最后的犯罪行为进行⾏为分析,并将其保存在数据库中,从而形成一套全新的数据分析规则和数据更新方式。在大数据增长的情况下,要根据特定的关联规则或者搜索关键词,来进行数据分析规则的制定和数据分析规则的维护。
3.4外籍人员犯罪风险预测模型
基于大数据分析和智能算法建立外籍人员犯罪风险预测模型的步骤如下[14]:
Step 1:数据收集:本研究拟利用多种资料来源,搜集境外人士的个人资料、移民状况、教育背景、工作情况、居住情况等资料。另外,还将研究社会媒体、金融交易等与刑事案件有关的数据。
Step 2:数据清洗与整理:对采集到的数据进行清理、整理,剔除缺失值、异常值、重复值等,并将其格式化、规范化,保证数据的质量与一致性。
Step 3:特征提取与构建:采用信息增益、卡方检定、关联分析等常用的特征选取方法,结合数据挖掘、特征工程等手段,对刑事案件中的犯罪行为进行识别,并建立新的特征变量。
Step 4:模型训练:在此基础上,选取合适的机器学习算法,如决策树等,对所得到的数据进行训练。
Step 5:模型评估与验证:利用测试用例对所构建的模型进行评价与检验,并从准确率、召回率、F1值等方面对模型进行评价。通过对特征参数的调整、算法的调整、阈值的调整等方法对模型进行优化。
Step 6:模型部署与应用:在此基础上,开发出一套针对在华流动人口犯罪行为进行预警模型,为在华流动人口的违法行为进行实时预警,并为相关政策制定提供依据。
泊松分布公式:
其中,X表示在一定时间间隔内发生的犯罪次数,la是期望值。
准确率公式:
其中,TP是真正例(实际犯罪且预测为犯罪),TN是真负例(实际非犯罪且预测为非犯罪),P是实际犯罪的数量,N是实际非犯罪的数量。
损失函数公式:
其中,n是样本数量,yi是真实标签,是模型预测。
均方误差FY:
4.结果和讨论
4.1响应时间评估
外籍人员犯罪风险预测模型响应时间评估如表1所示。响应时间最高是200ms。
4.2模型准确率和召回率
准确率和召回率对比如图1所示。召回率最低为0.79,准确率最低为0.83。
4.3F1 score
模型F1 score如图2所示。模型F1 score最低为0.81。
4.4特征权重
特征名称和对应的特征权重如表2所示。教育程度的特征权重是0.09。工作情况的特征权重是0.07。
4.5犯罪率
模型采用前后5个月的犯罪率如图3所示。本文模型采用后,犯罪率明显降低,采用前犯罪率0.578,采用后犯罪率0.358。
4.6抢劫犯罪防控建议与对策
(1)增强人们对于预防和治疗被害的意识
为了提高公众对夜间外出的认识和认识,政府和媒体应该加强对夜间外出的认识,以及夜间外出的必要性和必要性。社区应加大对夜间出行的监督力度,加大对夜间娱乐场所的管理力度。政府及社会可多举办夜市、文化活动,增加市民夜间活动的选择,减少非必要出行。父母应加强对孩子晚上出门的危险性及必要性的认识,并指导他们在家里开展有益的活动。同时,为市民提供更多的夜间公交,使市民在夜间更方便、更安全。
(2)加强巡逻
警察要对该地区的犯罪类型、作案时间和作案方式等情况有一定的了解,并对其特征进行分析;针对易发多发地区的特点,提出了巡逻时间、巡逻路线和人员配置等措施;在案件高发时段加大巡查频次,加大对这一地区的巡查力度;运用先进的技术,如监控摄像机、无人机等,监控犯罪活动的热点地区,及时发现并处置违法活动;针对治安案件高发地区的实际状况,对警力进行合理调配,保证警力在数量上与素质上得到保证;加强与社会的接触,了解社会治安状况,适时地采取防范和打击违法活动的措施;降低犯罪动机,预防再犯。
(3)强化社会服务功能
转变思想,实现工作模式由管理向服务转变;以信息化为手段,加强出入境管理的服务职能,是公安机关改革的重要方向。充分发挥信息系统的优势,可以有效地重复利用信息,对系统的信息进行科学的、全面的、全面的利用,同时,还可以通过多种途径和途径,将申请者应该知道的一切都告知给申请者,并将《出入境管理》的相关知识向公众公布。例如,在各地受理大厅的触摸屏、各地受理大厅的屏幕上,可以让申请人实时查询信息,并进行预约和出境的预约:通过电话语音查询,手机短信定制和点播,以及国际互联网,使公众能够及时了解其申请的进展等。这不仅给申请者带来了便利,而且对公安机关办理证件手续的监督,使公安机关逐渐由管理型向服务型转变。
(4)整合各类资源,深化“互联网+”服务平台建设
以公安机关“互联网+”为基础,将政府门户网站、公安部办事平台等相关信息和各种资源进行集成,实现出入境相关的法律知识的普及,相关政策、法规的公示,相关业务表格的下载,出入境动态信息的发布,群众咨询求助、投诉举报的受理、答复和出入境证件的预约受理等,为社会提供更为便捷化的互联网服务。与此同时,还应积极开发新的出入境管理系统,不断丰富和完善出入境管理的内容,把更多的出入境管理业务与“互联网+”综合服务平台结合起来。此外,各地区的出入境管理部门要对“互联网+”业务平台的各种功能进行及时、全面的检验,并制定一套长期的运营和维护制度,对出现的问题进行主动的反馈和汇报,同时也要对此进行积极的调整,确保服务平台的各种功能能够正常的使用和运行。基层出入境管理人员要在便民服务平台运行过程中做好解答,对群众进行耐心的讲解,对他们的意见和建议要仔细倾听,对工作中存在的问题进行纠正,让入境“互联网+”的便民服务平台真正发挥其便民、利民的作用。
5.结论
本文利用大数据分析和智能算法,通过统计大量在中国常住的外籍人员以及持多次入境的外籍人员的违法犯罪纪录,以期发现中国外籍人员的犯罪特征及发展趋势,了解各类犯罪行为之间的内在关联,以及何种状况会引发何种犯罪行为。这一问题的研究,无论在公安机关还是在司法实践中,都具有很大的实际价值,这也是本文的主旨。因此,未来在提高警察的核心战斗力,深入推进大数据犯罪预警机制的运用过程中,必须要密切注意新情况下犯罪手段的变化,改变传统的以经验为基础的思维方式,不断完善侦查方式,同时也要保持对数据隐私和特殊技术的运用保持警惕,不能触及法律和道德的底线,对智能算法的发展进行控制,让它朝着一个健康的方向发展,更好地保证社会治安,更好地为人民群众提供更好的服务,真正促进新时期信息化侦查的发展。
参考文献
[1]张璇,于龙.公安机关开展网络犯罪侦查方法的创新研究[J].贵州警察学院学报, 2023, 35(3):83-89.
[2]李晓临.公安工作视域下《犯罪学》课程建设思考[J].江苏警官学院学报, 2021, 36(5):108-112.
[3]刘剑郁,王琴.公安院校食品药品环境犯罪侦查技术专业建设的实践检视与拓展思考[J].山西警察学院学报, 2023, 31(5):95-101.
[4]白羽,肖宇喆.基于转化犯罪学的公安科研成果转化研究[J].武汉公安干部学院学报, 2022, 36(2):70-74.
[5]赵高旺.铁路公安机关侦办电信网络诈骗犯罪案件的难点及对策——以"4·16"电信网络诈骗案为视角[J].铁道警察学院学报, 2023, 33(3):16-23.
[6]Alam T. Cloud Computing and its role in the Information Technology[J]. IAIC Transactions on Sustainable Digital Innovation (ITSDI), 2020, 1(2): 108-115.
[7]Mahadeo J, Hazari Z, Potvin G. Developing a computing identity framework: Understanding computer science and information technology career choice[J]. ACM Transactions on Computing Education (TOCE), 2020, 20(1): 1-14.
[8]Hancock J T, Khoshgoftaar T M. CatBoost for big data: an interdisciplinary review[J]. Journal of big data, 2020, 7(1): 1-45.
[9]Wang J, Yang Y, Wang T, et al. Big data service architecture: a survey[J]. Journal of Internet Technology, 2020, 21(2): 393-405.
[10]Misra N N, Dixit Y, Al-Mallahi A, et al. IoT, big data, and artificial intelligence in agriculture and food industry[J]. IEEE Internet of things Journal, 2020, 9(9): 6305-6324.
[11]Zulyadi R .Police's Role to Prevent Criminal Act of Rape-Murder (Study Case of Police Labuhan Ruku Talawi Sub-District, Batubara District, North Sumatera)[J].SIASAT, 2020, 5(2):39-46.
[12]Sutherland A, Strang L, Stepanek M, et al. Tracking violent crime with ambulance data: how much crime goes uncounted?[J]. Cambridge Journal of Evidence-Based Policing, 2021, 5(1-2): 20-39.
[13]Xu J, Wang A, Wu J, et al. SPCSS: social network based privacy-preserving criminal suspects sensing[J]. IEEE Transactions on Computational Social Systems, 2020, 7(1): 261-274.
[14]Asaad R R, Ahmad H B, Ali R I. A review: big data technologies with hadoop distributed filesystem and implementing M/R[J]. Academic Journal of Nawroz University, 2020, 9(1): 25-33.