Atitit 数据挖掘之道
扫描二维码
随时随地手机看文章
Atitit 数据挖掘之道 attilax总结 艾龙著
1. 数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。 1
2. 数据(Data)-信息(information)-知识(Knowledge)是一个递进的关系。 1
3. 数据挖掘的步骤一般可以分为:数据提取(ETL)-数据仓库-数据挖掘工具-知识发现。 2
4. 包含的技术点 与挖掘方法详细 分析方法: 2
4.1. ETL 相似度分析 模式识别 2
4.2. 分类、聚类 2
4.3. 垂直领域分析 比如 图片挖掘 yifu pose等 2
4.4. 数据转换 方便体积缩小 方便存储 2
4.5. 结构化 复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等) 2
4.6. 、推荐、关联规则 3
4.7. Tag join groupby分组聚合 统计聚合 3
4.8. 可视化 3
4.9. HTML分析 3
4.10. 来自统计学的抽样、估计和假设检验, 3
4.11. (2)人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。 3
4.12. 最优化、进化计算、信息论、信号处理、可视化和信息检索。一 3
4.13. 估计(Estimation) · 预测(Prediction) 3
5. 相关技术 他是统计分析方法学的延伸和扩展。 3
6. 应用场景 4
1. 数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。
数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
2. 数据(Data)-信息(information)-知识(Knowledge)是一个递进的关系。
数据的电子化产生了信息,比如:我们可以通过SQL语句检索到我们要的信息,但是我们无法用简单的SQL语句找到我们需要的知识,
3. 数据挖掘的步骤一般可以分为:数据提取(ETL)-数据仓库-数据挖掘工具-知识发现。4. 包含的技术点 与挖掘方法详细 分析方法:4.1. ETL 相似度分析 模式识别4.2. 分类、聚类4.3. 垂直领域分析 比如 图片挖掘 yifu pose等4.4. 数据转换 方便体积缩小 方便存储4.5. 结构化 复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)
4.6. 、推荐、关联规则4.7. Tag join groupby分组聚合 统计聚合4.8. 可视化4.9. HTML分析4.10. 来自统计学的抽样、估计和假设检验,4.11. (2)人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。4.12. 最优化、进化计算、信息论、信号处理、可视化和信息检索。一4.13. 估计(Estimation) · 预测(Prediction)5. 相关技术 他是统计分析方法学的延伸和扩展。
数据挖掘利用了人工智能(AI)和统计分析的进步所带来的好处。这两门学科都致力于模式发现和预测。
数据挖掘不是为了替代传统的统计分析技术。相反,他是统计分析方法学的延伸和扩展。大多数的统计分析技术都基于完善的数学理论和高超的技巧,预测的准确度还是令人满意的,但对使用者的要求很高。而随着计算机计算能力的不断增强,我们有可能利用计算机强大的计算能力只通过相对简单和固定的方法完成同样的功能。
一些新兴的技术同样在知识发现领域取得了很好的效果,如神经元网络和决策树,在足够多的数据和计算能力下,他们几乎不用人的关照自动就能完成许多有价值的功能。
数据挖掘就是利用了统计和人工智能技术的应用程序,他把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题。
6. 应用场景
1、情感分析:从xxxx上观察到用户对某一事物或者观点是怎么评价的,而且还能基于这些说法见解采取行动。目前好像只能从计算词汇数量上去理解理解在博客和社交网站上发帖人背后的情感是什么,目前为止确定每个消息的情绪是积极的还是消极的技术尚未成熟
3、偏好分析:可以根据用户的共同特征(偏好),通过算法进行数据挖掘,以便对客户群进行分群操作(可以从各个方面各个角度进行分群)。
可以对某些特定事件如生日等进行推荐或营销
事件雷达分析: 。异常事件解析...
事件的相关性:
为什么所以什么?现在我们不强调这个问题,我们只知道这是相关的,发生A事件之后就发生B事件,但是这两者是什么关系,我们不清楚。把相关事件打在一起,发生A事件之后,B事件点击率会高,但是因果关系不怎么追求了,但是肯定是有关系的。我个人感受非常深的,在今天开放的数据,隐私问题,很多情况是能避免的,越来越多开放的社区出现了。你使用一个产品,你使用微博
第一个就是推荐系统。一个人上来以后,你给他推荐感兴趣的人,他的朋友。一种是基于兴趣,一种是基于关系的。你只有让他形成更强的关系链,就是他的好朋友,形成更好的兴趣,感情,交集圈。推荐系统和广告推荐是很相似的,算法做法是一样的。
第三个叫微热点,真正实现信息关联。微博里面每时每刻都有热点事情发生,用机器发现哪些热点事件能读出来。它要做的事很多,第一发现热点事情,第二把热点事情聚在一起形成热点事件的脉络,第三把热点事件投放到用户面前,是纯自动的形式。每天数亿的数据怎么把它挑选出来。
第五个是微博管家。怎么样把好的东西挑出来,垃圾自动过滤。我们邮箱就有垃圾箱,微博也有人做吗?不这么做有很多原因,一是技术是不是准确,二是商业化的问题。我相信不愿意做的原因就是商业化的问题。商业化的价值怎么做,这是需要我们做的,把垃圾信息过滤掉。
根据前后关系--文本分类
微频道刚才提到了,对优势内容的挑选。单纯从技术角度来考虑这个问题,文本分类是很难的事,因为文本很短,还要分类,不像一些文章,几百个字进行分类,你有充足的理由做这个事,这里面需要很多办法,你不能把精力都放在文本本身,还有用户呢。这个用户老发财经类的内容,他发文章的时候,财经概率很多。利用这种思维,用更多的特征来学习,不要局限在内容本身里面准确会大幅提升。分完类之后还要把差的质量去掉,把好的质量选出来。比如说展示量,各种各样的东西,都是帮助你学习的
对内容质量的判断
包括用户和用户之间的关系,内容和内容之间的关系,用户和内容之间的关系。
paip.论数据挖掘.txt
数据挖掘_百度百科.html
C:UsersAdministratorDesktop数据挖掘资料包>dir /b
Atitit 数据挖掘 数据提取 工具 html版nodejs版.docx
Atitit 数据挖掘之道 attilax总结 艾龙著.docx
Atitit 手机图片文档数据挖掘 提取策略方法.docx
Atitit 手机图片文档数据挖掘 提取策略方法.docx.274779CF1B6139849
Atitit 手机图片文档数据挖掘 提取策略方法.docx.274779CF1B6139849
Atitit 数据挖掘 nodejs上HTML分析利器.docx
Atitit 数据挖掘与统计 热衷于爆炸的地点.docx
atitit 数据挖掘的attilax总结.docx
atitit.数据挖掘 回收站文件列表 (2).doc
atitit.数据挖掘 回收站文件列表.doc
atitit.数据挖掘的attilax总结 好像跟个机器学习差不多啊.docx
Atitit.数据挖掘的原理与理论架构attilax总结 v2 r818.docx
Atitit.数据挖掘的原理与理论架构attilax总结.docx
paip.论数据挖掘.txt
上海城市轨道交通信息中心数据挖掘实施指导建议.doc
数据挖掘资料包.rar
申通地铁数据挖掘需求分析.doc