摘 要:关联规则算法中FP-Growth算法虽不产生候选集,但由于算法高度依赖于内存空间,阻碍了算法在大数据领域的 发挥,因此,改进了经典的FP-Growth算法,首先创建支持度计数表,避免了算法对条件模式基的第一次遍历,减少了对数据 库的扫描次数;其次利用剪枝策略删去了大量沉余的非频繁项集;最后将算法并行化,利用Hadoop平台优势极大提高数据 处理的效率,同时解决了算法占用内存的瓶颈问题。实验结果表明,改进型FP-Growth算法挖掘和预测轨迹的效率明显高于 经典算法。
摘 要:随着地理信息技术的发展,使得全方位的掌控土地资源的合理利用更加方便、系统化。针对土地利用信息、规 划信息、各类土地在利用中的比例分析来实现对土地资源的管理,使得土地利用更加高效合理化。系统主要实现统计分析、 计量分析、动态模型的创建、GIS空间分析,用来处理通过手持终端和遥感采集来的元数据,将其绘制成文档或地图供直观 参考,同时可以有效地分析利用情况、水域面积、绿化比例、规划合理,性等信息,并可导出各类分析报告。
摘要:针对传统序列模式挖掘算法都是针对单机环境、静态实例以及非连续轨迹的不足,提出了Map/Reduce系统与经过优化的PrefixSpan序列模式挖掘算法相结合的改进型算法。该算法在生成投影数据库时,只有当待投影序列的第一个元素和前缀的最后一个元素相同时才会被选中,保证了挖掘出的都是连续轨迹片段。同时采用并行处理的方法,使用Map函数构建每个频繁序列前缀对应的投影数据库,使用Reduce函数整合所有的中间键值对得到需要的结果。