大数据挖掘在寄递业的应用
扫描二维码
随时随地手机看文章
引 言
本次研究从实战理念出发,从基础工作做起,运用先进的大数据技术对现有寄递行业数据进行整合,构建新的大数据应用系统。该系统建设包含本地快递数据以及其他相关数据的数据中心,并在此数据中心基础上与其他各地实现全国联网、异地协作等功能的邮路侦控信息化平台,通过该系统可与其他地市进行数据交换。通过该系统的建设,将极大丰富行动技术部门的信息资源,形成可甄别特定信息,查除异端快件信息的监控网络 [1]。
1 系统整体设计
系统针对寄递行业特点,结合基础资料进行机主信息分析、宽带信息分析、逃犯信息分析,同时可在大数据中进行人员关系分析、号码关系分析、物品关系分析。分析的结果可保存在中间库,并进行信息共享,方便用户使用。系统设计如图 1 所示。
结合寄递公司基本功能要求,系统以可扩展结构实现多种数据的接入。针对不同的数据源可定制专属的数据抓取工具,实现自动化数据抓取,系统中需要附带专业的数据抓取工具。应对不同的数据格式,实现可动态配置的数据格式化工具,数据格式化由数据格式化软件负责,数据格式化软件运行在格式化机上,主要功能包括将各种来源的数据快速、准确地转换为统一格式,同时进行数据整理和标准化处理,以便于后续的处理工作。抓取的源数据其来源与格式千差万别,具有数据量大、实时性要求高等特点,是本系统处理的重点。数据格式化在进行数据标准化处理时,需要进行解压、解析、数据标准化整理、预警等过程,具有统一的查询平台和查询接口,统一的预警体系和预警接口等 [2-3]。
2 大数据挖掘与应用
系统支持普通查询和综合查询。对于普通查询而言,可以针对某个字段,如号码、基站代码、机身码进行查询,在普通查询时可以输入多个条件进行批量查询。为了提高工作效率,这些条件既可人工输入,也可以从其他文件中导入。综合查询时操作员可根据需要设置各种查询条件,这些条件用“与”“或”逻辑关系组合起来 [4]。
2.1 大数据挖掘
大数据使用计算机进行分析处理。针对海量数据,人脑的处理速度远远不比计算机处理速度快、效率高。比如对不同的粗糙粒度进行全维度分析,就需借助人机综合系统,而这就是科技发展带来的优势 [5]。
当产生了抽象模型,可以针对每一个人积累的数据进行模式匹配和模式识别,从而进行针对某种特定需求的操作判断。比如一家销售化妆品的公司可以对积累的海量用户消费数据进行筛选,根据模型识别匹配出目标客户群,从而找到目标客户群,并进行有针对性的营销,不同用户群接触的媒体类型不同,寻找每个人的媒体接触习惯与接触时间,甚至能够预测下一次将在什么地方接触到,方便定向推广预定信息,做到有的放矢,提高命中率。
大数据的挖掘运用越来越向定制化、个性化方向发展。个性化才能收到最佳效果,而个性化来自于精准的判断,精准的判断来自于丰富的模型和经验。因此只有挖掘出有价值的信息,才能使应用更广泛 [6-7]。
2.2 大数据应用
系统运用大数据挖掘技术,使用预先建立的数据模型进行大数据分析。系统的主要功能包括名址查询、快速查询、组合查询、全文检索、查询模板、结果再处理、专题数据、城市信息查询、归属地查询、重点库查询、从业人员查询、服务结果、审批查询、日志查询等。通过上述操作可以现实以下功能。
(1) 通过号码(姓名、地址)等分析多个号码(姓名、地址)间是否有快递联系,可在后台执行。从资料库或中间库中找出一组号码中存在的记录,或该组号码不存在的记录。根据联系人、姓名、地址不变的原则,以原号码为基础,找出某两段时间内同一姓名地址使用与原号码不同的通讯工具, 该通讯工具基本可判定为同一人使用。
(2) 通过关系网分析,集合号码查询关系人或者关系人的关系人等多层次联系对象的话单。该模型是联系圈模型及多层次联系对象现场比对分析等模型的基础。以号码为第一层号码对其联系对象进行统计 ;以第一层号码的联系对象为第二层、以第二层的联系对象为第三层,依次类推,直到指定层次,组成一个关系集合。
(3) 根据人与群分的特性,多个嫌疑人可能有共同联络人,输入一批嫌疑号码,找出与他们有共同联系的人,这些人也带有一定的嫌疑性。
(4) 根据特定号码收发邮件的时间来分析特定号码的活动规律,是白天在家,还是晚上在家 ;是工作日在家,还是周末在家等。
(5) 找出邮递频率比较高的记录,分析其发送邮包的内容,查验是否包含违禁品。
(6) 系统找出一个电话采用不同地址收发邮件的记录或找出收发双方采用不同快递收发邮件的信息,查验是否具有涉嫌零散组装货物,逃避检查的嫌疑。
(7) 通过归属地与地址不符分析,找出手机归属地与收件地址不符的信息,进一步排除。
(8) 以物品为中心,按时间、地区、网点、人员、号码等分析出特定物品的流动特性。如突发性地在一个月内有大量笔记本电脑从 A地发往 B地,这样的信息极其可疑 [8-10]。
3 结 语
本系统建立本地数据库并从各渠道实时或定时获取数据,可以有效提供数据规范化系统需要的灵活的数据规范化工具,以帮助进行数据规范化工作,加快行业标准化运营发展。
系统实现数据比对,对业务数据、知识库内的信息进行数据关联规则和比对策略设置,实现定时或即时分析与比对, 当满足条件后,自动通报比对结果。在变化的数据入库后执行相关数据比对工作,细致详尽规划查询信息,快递收件人姓名、收件人手机号、收件人地址的真实程度越高,越有助于查询异常和重点关注快件,可以提取出这类信息建立一个实时准确的人员信息库。
利用寄递行业数据真实程度高这一特性,结合已知的犯罪行为模式进行数据挖掘,可以类比出异常数据发现犯罪。后期在条件允许的情况下可以和各个公司进行联网实时取得数据,并进行预警,有助于公安系统维护社会和谐,打击犯罪活动。