❶ 怎么理解数据仓库中的面向主题
1、面向主题,是让你面向主题去分析问题,架构模型,而不是非要物理上回分开,就像答面向对象编程一样
2、“很多资料中都写数据仓库的数据模型是使用“第三范式”,数据集市才使用多维的星型模型”这个是不对的,因为在Inmon 和 Kimball 的书中都没有表示这种说法
Inmon 表是建数仓需要有个企业级的一致数据模型,并没有表示非要第三范式,这个第三范式是 Kimball 在自己的书里说 Inmon 的方式用第三范式不好啦啥的,具体自己看书《数据仓库工具箱-维度建模权威指南》第一种1.5节
数据集市使用维度建模,这个说法Kimball 也没有说过,而是 Inmon 在自己的书里说维度建模只适合数据集市,具体看《数据仓库》第5张5.19节(应该是这一节)
PS:其实感觉他俩的观点差不多,只是根据他们必须得给自己的观点加油呐喊而已,两个人互撕很多年了
❷ 数据仓库怎么上手
额 我是做DW的 先说你第一个问题哈 ETL 表面意思是清洗转换加载 这个不说了 网上自己内搜就行,我要说的容是,这个过程其实实施起来没网上说的那么复杂,ETL是为你的数据从业务数据库流入到DW服务的 第二个问题 你现在有前台界面和数据库建DW有这些东西足够你用了,如果说还缺点什么,最好把你们统计系统的数据库数据字典搞一份 总结一下 你现在其实最缺的不是技术 是例子 因为我猜你还不知道DW应该长什么样 推荐你本书,拉尔夫的《数据仓库工具箱》 另外补充楼上说的 数据量大小和用不用工具是没有半毛钱关系的 新手推荐手写
❸ 数据仓库系统有哪三个工具层 典型的数据仓库系统包括哪几部分
典型的数据仓库系统包括以下几个部分:
数据源
ETL(数据抽取、转换和加载)
数据仓库
数据集市
前端展示(包括报表、多维展示等)
❹ 维度什么意思
维度(Dimension),又称为维数,是数学中独立参数的数目。在物理学和哲学的领域内,指独立的时空坐标的数目。0维是一个无限小的点,没有长度。1维是一条无限长的线,只有长度。2维是一个平面,是由长度和宽度(或部分曲线)组成面积。3维是2维加上高度组成体积。
4维分为时间上和空间上的4维,人们说的4维通常是指关于物体在时间线上的转移。(4维准确来说有两种:四维时空,是指三维空间加一维时间;四维空间,只指四个维度的空间。)四维运动产生了五维。
(4)数据仓库工具箱3扩展阅读:
维度的特性
在点上描述(定位)一个点就是点本身,不需要参数;在直线上描述(定位)一个点,需要1个参数(坐标值);在平面上描述(定位)一个点,需要2个参数(坐标值);在体上描述(定位)一个点,需要3个参数(坐标值)。
如果我们改变“对象”就会得到不同的结论,如:“直线基于平面是4维、直线基于体是6维、平面基于体是9维”。
两点可确定一条直线,所以描述(定位)一条直线在平面上需要2×2个参数(坐标值)、在体上需要2×3个参数(坐标值);不共线的三点可确定一个平面,所以在体上描述(定位)一个平面需要3×3个参数(坐标值)。
❺ 数据仓库模型设计 用什么工具箱
datastage,di,informatic等等是用来做ETL的,saybase
powerdesinger数据仓库建模的
也可以不用工具
直接写存储过程的
给分吧楼主
没看明白也可以追问
❻ 维度是什么意思
维度又称维数,是数学中独立参数的数目。在物理学和哲学的领域内,指独立的时空坐标的数目。
从广义上讲:维度是事物“有联系”的抽象概念的数量,“有联系”的抽象概念指的是由多个抽象概念联系而成的抽象概念,和任何一个组成它的抽象概念都有联系,组成它的抽象概念的个数就是它变化的维度,如面积。此概念成立的基础是一切事物都有相对联系。
从哲学角度看,人们观察、思考与表述某事物的“思维角度”,简称“维度”。例如,人们观察与思考“月亮”这个事物,可以从月亮的“内容、时间、空间”三个思维角度去描述;也可以从月亮的“载体、能量、信息”三个思维角度去描述。
(6)数据仓库工具箱3扩展阅读
数学维度
通常的理解是“点是0维、直线是1维、平面是2维、体是3维”。实际上这种说法中提到的概念是“前提”而不是“被描述对象”,被描述对象均是“点”。故其完整表述应为“点基于点是0维、点基于直线是1维、点基于平面是2维、点基于体是3维”。再进一步解释,在点上描述(定位)一个点就是点本身,不需要参数;在直线上描述(定位)一个点,需要1个参数(坐标值);在平面上描述(定位)一个点,需要2个参数(坐标值);在体上描述(定位)一个点,需要3个参数(坐标值)。
如果我们改变“对象”就会得到不同的结论,如:“直线基于平面是4维、直线基于体是6维、平面基于体是9维”。进一步解释,两点可确定一条直线,所以描述(定位)一条直线在平面上需要2×2个参数(坐标值)、在体上需要2×3个参数(坐标值);不共线的三点可确定一个平面,所以在体上描述(定位)一个平面需要3×3个参数(坐标值)。
参考资料: 网络-维度
❼ 麻烦哪位高人推荐几本数据挖掘的书
楼上来在误人子弟了,数据库自和数据仓库还是区别一大把的,可能数据仓库的很多实现上还是借助于数据库,但是要记住,现在已经很多成熟的东西是不基于数据库了,或者精确一点说是不借助于传统的关系型数据库了,比如Hyperion的数据仓库产品的话,就是搭建在ESSBASE上的,这就是一种多维数据库。
另外传统数据库的设计和现在OLAP数据仓库的设计完全是不一样的,传统一般采用的雪花模型在OLAP中基本上不会采用的。所以还是很多不同的,不能等同对待
如果要学数据仓库的话,我建议你看两本书:构建数据仓库、数据仓库工具箱:维度建模的完全指南
把这两本书看看就基本上具备理论基础了。
❽ 大数据都需要学什么
这要看你学到什么程度了,初级的大数据工程师,大数据开发工程师,大数据维护工程师啊,再往后发展大数据研发工程师,大数据架构师,数据分析师,大数据高级工程师,大数据分析师专家,大数据挖掘师,大数据算法师等;不管的研发,还是数据分析,还是运维,都要看以后的工作需要和发展,还有自我提升等,不同的方向分工又不太相同,大数据作为一门基础科学,无论在数据开发及分析、物联网和人工智能算法训练领域,都有着核心技术和职位诉求。具体学习大数据一般分为以下几个阶段:
第一阶段:大数据基础
Java基础——Java语法基础。掌握JAVA的开发环境搭建以及基础知识等.能够熟练使用逻辑语法进行代码编写
数据结构——数组、链表、栈、队列、排序、二分查找、散列表、哈希表、二叉树,红黑树、递归树,堆和栈。继续提升大家的计算机素养,掌握算法初步。
MySQL基础——mysql安装、基本SQL语句、SQL优化。掌握数据库的基本应用。
Javaweb——tomacat、servlet、JSP 、MVC。掌握web开发的相关内容,理解数据来源
高级java——面向对象、网络编程、反射、多线程。理解分布式程序运行原理,为以后阅读大数据框架打下基础。
linux基础——虚拟机安装、常用linux命令、shell脚本。学会使用linux操作系统,为部署大数据集群做准备。
第二阶段:大数据框架
Hadoop——分布式存储、分布式计算、公共通用接口。掌握部署大数据集群,熟练编写map-rece程序。
Zookeeper——Zookeeper协调机制、选举机制。搭建高可用集群。
Hive——数据仓库搭建、数据导入和分析。初步掌握数据仓库的概念,为后续企业级数仓做准备。
Hbase——Hbase集群搭建、大数据数据库工作原理、列式存储、高吞吐量应用开发。掌握大数据数据库Hbase的应用,科学的行键设计,热点数据处理。
Kafka——理解消息队列、Kafka集群部署、高并发高可用数据采集框架搭建。掌握高可以高并发数据队列系统设计、能处理峰值问题。
Scala——Scala语法基础、常用算子、异步通信。掌握优秀的数据处理语言Scala
Spark——Spark集群搭建、离线数据处理、实时数据处理、机器学习、图计算。掌握一栈式解决方案Spark,它是大数据的核心模块。
常用辅助框架——Sqoop、Flume、Presto、impala、Phoenix、oozie、ElasticSearch、kylin、MongoDB、Redi、Druid。掌握常用工具和与大数据紧密相关的框架,提高工作效率,拓展框架功能。
第三阶段:机器学习
python基础——python基础语法、面向对象、Numpy。掌握python基础语法和机器学习相关的基础框架。
数学基础——线性代数、微积分、概率、凸优化。本部分内容理解即可,对优化模型很重要。
常用算法——回归、KNN、决策树、聚类、集成学习、SVM、多分类、贝叶斯、EM、隐马模型、深度学习。掌握常用计算器学习算法的原理,能够根据数据特性选择合适的模型,训练泛化能力强的模型。
第四阶段:项目实操
云和数据有大数据专业,可以详细了解一下,看看这个专业的职业发展。
❾ 谁有这本书 《Microsoft数据仓库工具箱的相关推荐
你要的邮件已经发出,请查收,有可能在垃圾箱里,如果10分钟后没收到,请在本问题里追问,我会再次发送,如果还有需要的朋友~
请点“赞”此条回答以后,在下面的评论里留下您的联系方式即可!