数据仓库是决策支持系统(Decision Supp System,DSS)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。
数据仓库的主要特点
(1) 数据仓库是面向主题的;操作型数据库的数据组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。
(2) 数据仓库是集成的,数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出数据仓库的核心工具来,进行加工与集成,统一与综合之后才能进入数据仓库。
(3) 数据仓库是不可更新的,数据仓库主要是为决策分析提供数据,所涉及的操作主要是数据的查询。
(4) 数据仓库是随时间而变化的,传统的关系数据库系统比较适合处理格式化的数据能够较好地满足商业商务处理的需求。稳定的数据以只读格式保存,且不随时间改变。
(5) 汇总的。操作性数据映射成决策可用的格式。
(6) 大容量。时间序列数据集合通常都非常大。
(7) 非规范化的。数据可以是而且经常是冗余的。
(8) 元数据。将描述数据的数据保存起来。
(9) 数据源。数据来自内部的和外部的非集成操作系统。
数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它并不是所谓的“大型数据库”。数据仓库的方案建设的目的,是作为前端查询和分析的基础,由于有较大的冗余,所以需要的存储也较大。为了更好地为前端应用服务,数据仓库往往有如下几点特征。
(1) 效率足够高。数据仓库的分析数据一般分为日、周、月、季、年等,可以看出,日为周期的数据要求的效率最高,要求24小时甚至12小时内,客户能看到昨天的数据分析。由于有的企业每日的数据量很大,设计不好的数据仓库经常会出问题,延迟1至3日才能给数据显然是不行的。
悟空CRM商业智能以新增商机分析为例,可以查看本年、去年、本季度、本月等,还可以进行自定义日期选择,显现悟空CRM 强大的分析数据能力
悟空CRM商业智能以合同数量分析为例,可以查看不同年份的数据分析,同时以线型图和列表图同步显示,线型图还包括环比和同比数据分析和对比等,以此显现悟空CRM 强大的分析数据能力
(2) 数据质量。数据仓库所提供的各种信息,肯定要准确的数据,但由于数据仓库流程通常分为多个步骤,包括数据清洗、装载、查询、展现等,复杂的架构会有更多层次,那么由于数据源有脏数据或者代码不严谨,都可以导致数据失真,客户看到错误的信息就可能导致分析出错误的决策,造成损失,而不是效益。
(3) 扩展性。之所以有的大型数据仓库系统架构设计复杂,是因为考虑到了未来3至5年的扩展性,这样的话,未来不用太快花费资金去重建数据仓库系统,就能稳定运行。这主要体现在数据建模的合理性,数据仓库方案中多出一些中间层,使海量数据流有足够的缓冲,不至于数据量大很多,就运行不起来了。
从上面的介绍中可以看出,数据仓库技术可以将企业多年积累的数据唤醒,不仅为企业管理好这些海量数据,而且挖掘数据潜在的价值,从而成为通信企业运营维护系统的亮点之一。
广义地说,基于数据仓库的决策支持系统由3个部件组成:数据仓库技术、联机分析处理技术和数据挖掘技术,其中数据仓库技术是系统的核心。
1. 构造数据仓库
数据仓库具有改变业务的威力。它能帮助公司深入了解客户行为,预测销售趋势,确定某一组客户或产品的收益率。尽管如此,数据仓库的实现却是一个长期的、充满风险的过程。最近,由DM Review发布的一项网络调查显示,51%受访者认为创建数据仓库的头号障碍是缺乏准确的数据。而其中最重要的一点是无法实时更新所有的数据。
有6项指导原则可帮助企业快速实现数据仓库计划并评估其过程。
(1) 简化需求收集和设计。公司通常会难以确定,哪些数据重要,哪些使得他们无法利用有价值的非结构化信息来驱动关键业务流程。组织应该检查一下IT经理是否深入理解业务计划及支持计划所需的信息。例如,源数据在哪里?需要怎样的转换能让其为关键应用程序所用?
(2) 支持业务和IT用户协作。不完整、过时或不准确的数据会导致可信信息的缺乏。要注意公司是否有一个业务术语表供用户查看、用于协作并根据他们集体业务视角进行调整?
(3) 避免代价高昂的低级错误和返工。明确公司是否拥有一个包含界定完善的数据模型的实施策略,为目前和将来的应用程序提供信息?
(4) 识别匹配信息,创建单一视图。同一事实的多个版本会导致在管理用户、产品和合作伙伴关系方面出现问题——增加违反法规遵从性的风险。
(5) 使用最快的、最具伸缩性的方法进行转换和发布。明确公司是否有能够利用并处理并重用之前转换成果的自动化过程?公司系统能否及时按需将数据发布给用户和应用程序?
(6) 通过信息服务扩展信息可访问性。明确企业是否能真正将信息用作共有财产?IT专家能否保存好这些财产并让被授权者使用?信息能否在合适的时间发布到合适的地方和合适的场景?
2. 实现方式
数据仓库是一个过程而不是一个项目。
数据仓库系统是一个信息提供平台,它从业务处理系统获得数据,主要以星形模型和雪花模型进行数据组织,并为用户提供各种手段从数据中获取信息和知识。
从功能结构划分,数据仓库系统至少应该包含数据获取(Data Acquisition)、数据存储(Data Storage)、数据访问(Data Access)3个关键部分。
企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础的。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看,数据仓库建设是一个工程,是一个过程。
3. 建立数据仓库的作用
企业建立数据仓库是为了填补现有数据存储形式已经不能满足信息分析的需要。数据仓库理论中的一个核心理念就是事务型数据和决策支持型数据的处理性能不同。
企业在它们的事务操作过程中收集数据。在企业运作过程中:随着订货、销售记录的进行,这些事务型数据也连续的产生。为了引入数据,企业必须优化事务型数据库。
处理决策支持型数据时,一些问题经常会被提出:哪类客户会购买哪类产品?促销后销售额会变化多少?价格变化后或者商店地址变化后销售额又会变化多少?在某一段时间内,相对其他产品来说哪类产品特别容易卖呢?哪些客户增加了他们的购买额?哪些客户又削减了他们的购买额?
事务型数据库可以为这些问题做出解答,但是它所给出的答案往往并不能让人十分满意。在运用有限的计算机资源时常常存在着竞争。在增加新信息的时候我们需要事务型数据库是空闲的。而在解答一系列具体的有关信息分析的问题的时候,系统处理新数据的有效性又会被大大降低。另一个问题就在于事务型数据总是在动态的变化之中的。决策支持型处理需要相对稳定的数据,从而问题都能得到一致连续的解答。
数据仓库的解决方法包括:将决策支持型数据处理从事务型数据处理中分离出来。数据按照一定的周期(通常在每晚或者每周末),从事务型数据库中导入决策支持型数据库——即“数据仓库”。数据仓库是按回答企业某方面的问题来分“主题”组织数据的,这是最有效的数据组织方式。
悟空CRM产品更多介绍:www.5kcrm.com