个人信息

发送短消息 加为好友
姓名: 谭小芳
领域: 企业战略  市场营销  运营管理  领导艺术 
地点: 北京 西城
签名: 谭老师助理:13733187876
官网www.jungle.org.cn
  • 博客等级:
  • 博客积分:12896
  • 博客访问:73812410

专家文章

数据挖掘概念与技术培训 2011-09-20

标签: 数据挖掘   概念技术   培训  


讲师:谭小芳
助理:13733187876
培训时间:1-2天
培训地点:客户自定
培训对象:企业中高层管理者
培训背景:
我一直对数据挖掘很感兴趣,尤其是通过对海量、抽象甚至枯燥的数据进行挖掘分析后,利用数据可视化工具展现出来的那种绚丽多彩、富含意蕴的数据之美更是令我痴迷、叹为观止。本书涉及领域很广,各领域的精英们向我们娓娓道来相关领域的数据信息系统的架构的设计,包括Yahoo!的云存储架构、Deep Web数据抓取、Face book的信息平台、自然语言处理、“凤凰号”火星探测器的图像数据处理、探索数据生命的DNA漫谈,甚至是Radio head视频的制作、旧金山的次贷危机等。阅读完本书之后,我自己的一个很大的收获是对于自己比较了解的领域,如云存储、Deep Web、NLP等有了进一步的理解和实践指导,而对于那些完全不熟悉的领域,如探索数据生命、火星探测器、制作Radio head视频等则更是开阔了视野,不但对数据有了新的认识,而且激发了思考问题的一些新的思维方式。


——欢迎进入著名专家谭小芳老师经典课程《数据挖掘概念与技术培训》!


培训大纲:
第一部分 引言
第一讲 什么激发了数据挖掘,为什么它是重要的
第二讲 什么是数据挖掘
第三讲 对何种数据进行数据挖掘
 关系数据库
 数据仓库
 事务数据库
 高级数据和信息系统与高级应用
第四讲 数据挖掘功能—可以挖掘什么类型的模式
 概念/类描述:特征化和区分
 挖掘频繁模式、关联和相关
 分类和预测
 聚类分析
 离群点分析
 演变分析
第五讲 所有模式都是有趣的吗
第六讲 数据挖掘系统的分类
第七讲 数据挖掘任务原语
第八讲 数据挖掘系统与数据库系统或数据仓库系统的集成
第九讲 数据挖掘的主要问题
 
第二部分 数据预处理
第一讲 为什么要预处理数据
第二讲 描述性数据汇总
 度量数据的中心趋势
 度量数据的离散程度
 基本描述数据汇总的图形显示
第三讲 数据清理
 缺失值
 噪声数据
 数据清理作为一个过程
第四讲 数据集成和变换
 数据集成
 数据变换
第五讲 数据归约
 数据立方体聚集
 属性子集选择
 维度归约
 数值归约
第六讲 数据离散化和概念分层产生
 数值数据的离散化和概念分层产生
 分类数据的概念分层产生
 
第三部分 数据仓库与OLAP技术概述
第一讲 什么是数据仓库
 操作数据库系统与数据仓库的区别
 为什么需要分离的数据仓库
第二讲 多维数据模型
 由表和电子数据表到数据立方体
 星形、雪花形和事实星座形模式:多维数据库模式
 定义星形、雪花形和事实星座形模式的例子
 度量的分类和计算
 概念分层
 多维数据模型中的OLAP操作
 查询多维数据库的星形网查询模型
第三讲 数据仓库的系统结构
 数据仓库的设计和构造步骤
 三层数据仓库的系统结构
 数据仓库后端工具和实用程序
 元数据储存库
 OLAP服务器类型:ROLAP、MOLAP与HOLAP
第四讲 数据仓库实现
 数据立方体的有效计算
 索引OLAP数据
 OLAP查询的有效处理
第五讲 从数据仓库到数据挖掘
 数据仓库的使用
 由联机分析处理到联机分析挖掘
 
第四部分 数据立方体计算与数据泛化
第一讲 数据立方体计算的有效方法
 不同类型立方体物化的路线图
 完全立方体计算的多路数组聚集
 BUC:从顶点方体向下计算冰山立方体
 Star-Cubing:使用动态星形树结构计算冰山立方体
 为快速高维OLAP预计算壳片段
 计算具有复杂冰山条件的立方体
第二讲 数据立方体和OLAP技术的进一步发展
 数据立方体的发现驱动的探查
 在多粒度的复杂聚集:多特征立方体
 数据立方体中被约束的梯度分析
第三讲 面向属性的归纳—另一种数据泛化和概念描述方法
 数据特征化的面向属性的归纳
 面向属性归纳的有效实现
 导出泛化的表示
 挖掘类比较:区分不同的类
 类描述:特征化和比较的表示
 
第五部分 挖掘频繁模式、关联和相关
第一讲 基本概念和路线图
 购物篮分析:引发性例子
 频繁项集、闭项集和关联规则
 频繁模式挖掘:路线图
第二讲 有效的和可伸缩的频繁项集挖掘方法
 Apriori算法:使用候选产生发现频繁项集
 由频繁项集产生关联规则
 提高Apriori算法的效率
 不候选产生挖掘频繁项集
 使用垂直数据格式挖掘频繁项集
 挖掘闭频繁项集
第三讲 挖掘各种类型的关联规则
 挖掘多层关联规则
 从关系数据库和数据仓库挖掘多维关联规则
第四讲 由关联挖掘到相关分析
 强关联规则不一定有趣:一个例子
 从关联分析到相关分析
第五讲 基于约束的关联挖掘
 关联规则的元规则制导挖掘
 约束推进:规则约束制导的挖掘
 
第六部分 分类和预测
第一讲 什么是分类,什么是预测
第二讲 关于分类和预测的问题
 为分类和预测准备数据
 比较分类和预测方法
第三讲 用决策树归纳分类
 决策树归纳
 属性选择度量
 树剪枝
 可伸缩性与决策树归纳
第四讲 贝叶斯分类
 贝叶斯定理
 朴素贝叶斯分类
 贝叶斯信念网络
 训练贝叶斯信念网络
第五讲 基于规则的分类
 使用IF-THEN规则分类
 从决策树提取规则
 使用顺序覆盖算法的规则归纳
第六讲 用后向传播分类
 多层前馈神经网络
 定义网络拓扑
 后向传播
 黑盒内部:后向传播和可解释性
第七讲 支持向量机
 数据线性可分的情况
 数据非线性可分的情况
第八讲 关联分类:基于关联规则分析的分类
第九讲 惰性学习法(或从近邻学习)
 k最近邻分类法
 基于案例的推理
第十讲 其他分类方法
 遗传算法
 粗糙集方法
 模糊集方法
第十一讲 预测
 线性回归
 非线性回归
 其他基于回归的方法
第十二讲 准确率和误差的度量
 分类器准确率度量
 预测器误差度量
第十三讲 评估分类器或预测器的准确率
 保持方法和随机子抽样
 交叉确认
 自助法
第十四讲 系综方法—提高准确率
 装袋
 提升
第十五讲 模型选择
 估计置信区间
 ROC 曲线
 
第七部分 聚类分析
第一讲 什么是聚类分析
第二讲 聚类分析中的数据类型
 区间标度变量
 二元变量
 分类、序数和比例标度变量
 混合类型的变量
 向量对象
第三讲 主要聚类方法的分类
第四讲 划分方法
 典型的划分方法:k均值和k中心点
 大型数据库的划分方法:从k中心点到CLARANS
第五讲 层次方法
 凝聚和分裂层次聚类
 BIRCH:利用层次方法的平衡迭代归约和聚类
 ROCK:分类属性的层次聚类算法
 Chameleon:利用动态建模的层次聚类算法
第六讲 基于密度的方法
 DBSCAN:一种基于高密度连通区域的基于密度的聚类方法
 OPTICS:通过点排序识别聚类结构
 DENCLUE:基于密度分布函数的聚类
第七讲 基于网格的方法
 STING:统计信息网格
 WaveCluster:利用小波变换聚类
第八讲 基于模型的聚类方法
 期望最大化方法
 概念聚类
 神经网络方法
第九讲 聚类高维数据
 CLIQUE:维增长子空间聚类方法
 PROCLUS:维归约子空间聚类方法
 基于频繁模式的聚类方法
第十讲 基于约束的聚类分析
 含有障碍物的对象聚类
 用户约束的聚类分析
 半监督聚类分析
第十一讲 离群点分析
 基于统计分布的离群点检测
 基于距离的离群点检测
 基于密度的局部离群点检测
 基于偏差的离群点检测

第八部分 挖掘流、时间序列和序列数据
第一讲 挖掘数据流
 流数据处理方法和流数据系统
 流OLAP和流数据立方体
 数据流中的频繁模式挖掘
 动态数据流的分类
 聚类演变数据流
第二讲 时间序列数据挖掘
 趋势分析
 时间序列分析中的相似性搜索
第三讲 挖掘事务数据库中的序列模式
 序列模式挖掘:概念和原语
 挖掘序列模式的可伸缩方法
 基于约束的序列模式挖掘
 时间相关序列数据的周期性分析
第四讲 挖掘生物学数据中的序列模式
 生物学序列比对
 生物学序列分析的隐马尔可夫模型

第九部分 图挖掘、社会网络分析和多关系数据挖掘
第一讲 图挖掘
 挖掘频繁子图的方法
 挖掘变体和约束子结构的模式
 应用:图索引、相似性搜索、分类和聚类
第二讲 社会网络分析
 什么是社会网络
 社会网络的特征
 链接挖掘:任务和挑战
 挖掘社会网络
第三讲 多关系数据挖掘
 什么是多关系数据挖掘
 多关系分类的ILP方法
 元组ID传播
 利用元组ID传播进行多关系分类
 用户指导的多关系聚类
 
第十部分 挖掘对象、空间、多媒体、文本和Web数据
第一讲 复杂数据对象的多维分析和描述性挖掘
 结构化数据的泛化
 空间和多媒体数据泛化中的聚集和近似
 对象标识和类/子类层次的泛化
 类复合层次泛化
 对象立方体的构造与挖掘
 用分治法对规划数据库进行基于泛化的挖掘
第二讲 空间数据挖掘
 空间数据立方体构造和空间OLAP
 挖掘空间关联和并置模式
 空间聚类方法
 挖掘光栅数据库
第三讲 多媒体数据挖掘
 多媒体数据的相似性搜索
 多媒体数据的多维分析
 多媒体数据的分类和预测分析
 挖掘多媒体数据中的关联
 音频和视频数据挖掘
第四讲 文本挖掘
 文本数据分析和信息检索
 文本的维度归约
 文本挖掘方法
第五讲 挖掘万维网
 挖掘Web页面布局结构
 挖掘Web链接结构识别权威Web页面
 挖掘Web上的多媒体数据
 Web文档的自动分类
 Web使用挖掘

第十一部分 数据挖掘的应用和发展趋势
第一讲 数据挖掘的应用
 金融数据分析的数据挖掘
 零售业的数据挖掘
 电信业的数据挖掘
 生物学数据分析的数据挖掘
 其他科技应用的数据挖掘
 入侵检测的数据挖掘
第二讲 数据挖掘系统产品和研究原型
 如何选择数据挖掘系统
 商用数据挖掘系统的实例
第三讲 数据挖掘的其他主题
 数据挖掘的理论基础
 统计学数据挖掘
 可视数据和音频数据挖掘
 数据挖掘和协同过滤
第四讲 数据挖掘的社会影响
 无处不在和无形的数据挖掘
 数据挖掘、隐私和数据安全
第五讲 数据挖掘的发展趋势
 

数据挖掘概念与技术培训课程回顾

推荐
谭老师助理:13733187876 官网www.jungle.org.cn
类别:运营管理 |   浏览数(1686) |  评论(0) |  收藏

相关文章

发表评论

最多只能输入150个文字,目前已输入 0 个字。
表情 [更多]
匿名评论
登陆账号: 密码: 找回密码 注册
看不清楚,换一张

以上网友发言只代表其个人观点,不代表总裁网的观点或立场。