美国政府倡导联邦机构学习机器内容
扫描二维码
随时随地手机看文章
许多美国联邦机构现在正处于了解机器学习以及如何将之应用到预测性分析中,把机器学习的一些要素应用到任务中,每个机构都能从中获益。
许多美国联邦机构现在正处于了解机器学习以及如何将之应用到预测性分析中,比如网络威胁检测,数据泄露自动检测和在社交媒体上识别潜在恐怖分子威胁的动向。把机器学习的一些要素应用到任务中,每个机构都能从中获益。
采用机器学习也意味着数据安全,数据引擎和基于数据型决策的新视角。对于还在部署阶段探索的机构而言,从何处开始部署其实都还是一项挑战。以下几步的学习,有助于各位在机器学习的道路上事半功倍。
安全第一
和任何系统整合项目一样,安全是整体设计过程中的头等大事。有关数据的具体问题很重要。例如:
谁能看到这些数据?
如何变更数据访问权限?
可否把Active Directory/Lightweight Directory Access Protocol方案整合进去?
可否将在行级(row level)或单元级(cell level)匿名数据?
可否与其他数据师共享我的数据,运算法则和项目结果,然后在有需要的时候变更访问控件?
在实施任何机器学习项目之前,有关数据管理,数据安全,监管和数据沿袭(data lineage)都是基础性的问题。
聚焦任务
准确了解自己需要解决哪些问题。选择一项适合的技术来解决该问题。定格问题,最大化地挖掘此项技术的价值。
任何机器学习项目的最大挑战之一是访问数据集。通常操作者需要从多个数据所有者处进行访问,此外,还会遇到各种数据类型的问题。数据所有者必须同意共享数据且加入机器学习计划。
机器学习最简单的形式是以运算法则为基础,根据历史数据识别趋势,然后做出预测。数据越好,运算法则越好,则预测越准确。
我已经有数据,然后要怎样做?
在获取数据集后,就可以全面了解数据了。将域专家,数据科学家和程序员召集到一起。先了解你的数据,然后才可以对其进行最大化的利用。你需要补充新的数据要素,融合多个数据源,执行数据分析,并启动“特征工程”(feature engineer)。在机器学习领域,一个特征就是一个单独的属性或者“解释性的变量”。你需要投入时间和域专业知识以识别数据中特定的,独立性的特征。数据方面的知识是选择合适特征并使运算法则行之有效的关键。选定特征后,要启动训练和提炼模式。
管理数据
把数据放入单独的数据库,数据湖或Hadoop生态系统的日子一去不复返。部署好控件层,才能更轻松地从多个数据源获取数据,并进行变更,特别是当任务关乎数据访问和数据共享的时候。
利用遗留的数据存储,然后同时管理数据和互动连接以加速数据访问。
消除手动检查节点,以便优化模式输出和整个企业之间的反馈回路。
确保政策部署到位,且要保障政策的执行力和安全性。
与机器学习模式所掌握的情况沟通
记住一些案例。避免“科学项目综合征”的发生,关注最初的问题以及从模式中获取的真实情况,想办法与之进行沟通。许多工具提供的虚拟化方式能让这种沟通变简单。
准备好模式生产并使其可持续
快速从概念转换到产出,才能达到实操目的。一旦环境和控件层到位,就要继续添加使用案例和更多的数据集。
让一个机构或组织要想最大程度利用机器学习和数据科学,就需要长期投入人才和不断发展技术。进入机器学习领域,需要在技术上完成从操作分析到预测分析的转型。
企业文化也需要发生改变,因为领导者要意识到基于数据的决策要比感情用事更重要。多鼓励数据共享和协作。保持你的模式。数据会随着时间流逝而改变。趋势也会随时间而改变。建立准确的,有预测性的模式是一种努力的方向。制订一个计划来追踪模式的性能,再设置好更新周期。