共享自行车市场智能预测系统
扫描二维码
随时随地手机看文章
引 言
未来共享单车在一线城市市场需求旺盛但容量有限三四线城市及海外市场是两大拓展方向。共享单车市场主要集中在一线及部分发达二线城市,市场需求非常显著。由于一线及部分发达二线城市市场容量有限,单车数量将很快达到饱和,共享单车向三四线城市拓展成为必然,市场需求提升较大同时,海外市场因自行车售价相对较高,为共享单车走出去也提供了良好的市场机会。共享单车虽然发展前景良好,但车辆管理也存在一些问题,共享单车智能动态预测分析系统可缓解共享单车调度不合理等管理问题
本系统在数据采集、存储、计算、分析和可视化等方面做了大量的工作,通过对数据的挖掘处理分析,动态预测共享单车的停放情况,从而达到对共享单车实时调度的目的该系统的研究具有较高的实用和商业价值
1 数据的采集
数据采集采用网络爬虫技术 [1],从网站上爬取数据,具体通过 Python工具实现。该项目中由于数据所需量巨大,故使用Python 网络爬虫对数据源进行爬取。网络爬虫是一个自动提取网页的程序,为搜索引擎从万维网下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的 URL 开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的 URL 放入队列,直到满足系统的条件聚焦爬虫的工作流程较为复杂,需根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入待抓取的URL 队列。其次将根据一定的搜索策略从队列中选择下一步要抓取的网页 URL,并重复上述过程,直至达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存储,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可对以后的抓取过程给出反馈和指导。相对于通用网络爬虫,聚焦爬虫还需解决三个主要问题 :对抓取目标的描述或定义 ;对网页或数据的分析与过滤 ;对 URL 的搜索策略。爬取到的部分数据见表 1 所列,表字段含义包括 :ordered,单车订单号 ;userid,用户 id ;bikeid,单车 id ;biketype,单车类型 ;starttime,开始骑行时间 ;geohashed_start_loc,开始地点(geohash 编码);geohashed_end_loc,停止地址(geohash编码)
2 数据的清理
2.1 Leak漏桶算法
数据的清理采用Leak 算法 [3],可对用户的不良行为进行过滤,使得该程序的预测准确性和合理性得到大幅提高Leak 漏桶算法是强制一个常量的输出速率而不涉及输入数据流的突发性,当输入空闲时,该算法不执行任何动作。就像用一个底部开了洞的漏桶接水一样,水进入漏桶里,桶里的水通过下面的孔以固定的速率流出,水流入速度过大会直接溢出,可看出漏桶算法能强行限制数据的传输速率,如图1 所示
2.2 数据处理过程
处理数据时,因骑车信息具有实时性,故过于久远的时间应通过 Leak 算法漏掉,处理该数据时,将每个用户的骑车时间只保留一个月,并将用户同一时间段进行多次同一操作的恶意数据进行删除,将多次相似的用户数据采取更小的子集来代替(代替后可有效降低数据集过大与用户在某个集合太集中的问题)
该算法中将每个用户 ID 当作一个集合,针对每个用户在工作日及节假日的不同习惯量身定做不同的专属用户集,将距离当前时间较早的数据集去掉(因骑车信息具有实时性,应排除较早的时间对现在的影响)。在 KNN 算法中,分别将连续变量,用户骑车的起始时间,起始地,将自行车类型及时间分离是否为节假日的离散量作为整体的标签,并将目的地作为类别,数据处理结果见表 2 所列
3 机器学习算法
机器学习算法采用KNN 算法,由于KNN 算法主要依靠周围有限的邻近样本,而不是靠判别类域的方法来确定所属类别,因此对于类域的交叉或重叠较多的待分样本集来说KNN 方法较其他方法更为适合
3.1 KNN算法
本项目技术使用机器学习 KNN 算法 [2]。在 KNN 算法中所选择的邻居都是已正确分类的对象。该方法在定类决策上只依据最邻近的一个或几个样本的类别来决定待分样本所属的类别。 KNN 方法虽然从原理上依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关
在有噪声的邻域中,最邻近域的真伪可靠性较差,故该程序中增加了一定邻域的数量,通过对数量的判别可增加系统预测的准确度。当使用更加通用的K临近分类器(K1)时近邻分类器的性能会有所改善,一些噪声的临近点参与投票时会被其他临近点抑制,数学上已证明错误率随着K值的增加而减小,直到K→∞时收敛到理想贝叶斯的错误率。因此理论上适当增加K 的个数能够增加预测准确率
在系统中由于考虑到起始和终止地点属于离散值,改项目中并没有采用欧氏距离而是通过将海明距离加入其中后得到
式中dy)为 到y的欧式距离,若离散值y,则值为0≠y,则值为1
该项目中的训练集由于标签过多,只显示某个用户骑车钟点的经纬度,如图 2 所示(横坐标表示纬度,纵坐标表示经度坐标原点表示为用户活动区域的范围)
3.2 算法具体实现
由于既有离散的数据,又有连续的数据,故先将离散数据进行归一化,针对用户的起始时间,将一天的时间标为 0 ~1 之间的任意值,但起始地点的经纬度却不能进行有效缩放一方面原因为缩小比例过多,缩小后会减少预测的准确性,另一方面为缩小后用户起始点的经纬度可能会带有很多位小数若统一有效位数会使得测试数据不准确。考虑到每个用户骑车范围很有限,因此起始位置每次只缩放用户所在的范围,保证归一化后数据不改变。由于考虑到用户在同一时间段(比如每个工作日)骑车的地点相对于固定,因此将时间相近的点分为一个集合。使用带权 KNN 算法将用户目的地的三个最接近同一时间点(比如早上 9∶00 整)代进权值的距离计算(权值以时间点为主),预测出用户骑车目地的一个较小的范围
3.3 预测分析处理
预测结果进行分析处理,采用托梅克连接方法。托梅克连接的是分类的程序,每个训练样例的价值可能是不同的在使用训练集之前先进行预处理,移除那些被认为无效的案例。托梅克连接点图如图 3 所示
本程序中采用了托梅克连接技术移除这些带有误导性的点,如果某个点具有以下3点要求,即该点为托梅克连接是y的最邻近y是的最邻近和y类别不同。这些条件是边界样例的特征,也是被其他类别的样例所包围样例的特征
从数据中可看出,用户骑车的时间,起始地等标签中的几个可能会处于两个目的地点的集合之间,这样的标签既属于第一集合,和它最邻近的标签也在第二个集合中的灰白地带可能会使大多数的预测值偏向于两个集合之间,故在该程序中对训练集中既属于集合 A 也属于集合 B 的集合做出如下处理如果集合 A 与集合 B 的交集中的点少于 50 个,则可根据托梅克连接将其中类别不同的临近点逐个去除 ;若点多余 50 个则可在重新将这个点划分为同一个集合,这样的做法既不会使预测率下降较多,也不会使去掉的点过多。
4 数据可视化
4.1 Mapv 技术
Mapv 是一款基于百度地图的大数据可视化开源库,可用来展示大量点、线、面的数据,每种数据也有不同的展示类型,如直接打点、热力图、网格、聚合等方式。在实现过程中,只需要使用 JSAPI,可方便地通过 JavaScript 在网站或任何可执行 JavaScript 的高级浏览器中,编写想要的展示样式。除此之外,其最大特点是可实现动态数据图的功能。这也是此项目选择将 Mapv与 Echarts 技术相结合的方式来实现可视化的部分。
4.2 可视化部分具体实现
(1)选取合适模型,为了更好地展示单车的分布情况,拟选择热力图或散点图来实现可视化部分。在热力图中,使用了部分北京地区的预测数据进行测试。地图上有标记的点为单车预测停放位置,颜色较高亮的位置为单车集中分布的区域。部分测试结果数据如图 4 所示。
(2)通过测试数据,绘制测试结果热力图,如图 5 所示,从测试图可看出,热力图的表现效果较差。虽然能够显示出某地方的单车的分布,但没有具体的数据可供参考,因此选择用“散点图”模型来实现当前部分。使用上述热力图的数据,最终产生的散点如图 6 所示(数字表示该区域的单车数量)。
5 结 语
该系统的实现,解决了共享单车重复利用率的问题。共享单车企业不必再耗费大量的人力进行“蹲点式”管理,而是通过预测系统对单车进行动态摆放。当某地区的用户缺乏单车使用时,通过该系统的预测,有关部门可提前对该地进行单车投放,使每一辆单车能物尽其用。与其他传统预测系统相比,该系统使用了 Mapv 技术增加了可视化模块,使预测结果直接显示在地图上而不是单一的坐标位置。使管理人员对系统调度位置更加简明易懂,即使非相关专业员工也可熟练使用。相比传统预测系统具有较高的应用及推广价值。