数据治理必知必会
元数据和数据字典的区别
从概念上来说,元数据是描述数据的数据,数据字典是对系统数据进行描述的信息的集合,两者的联系是都是对数据的定义和描述说明,并且从其定义上看,两者都属于数据。
数据字典需要元数据来描述其记录的数据,而数据字典本身是为描述元数据而设计的。
在这个意义上,两者的区别在于,元数据是一个更宽泛的概念,可以包含数据字典,数据字典则是更为具体的概念。 从实践上看,元数据一般泛指企业数据库中所有描述记录的字段信息,元数据工具被使用来手工或半手工的信息。而数据字典一般指的是开发人员在进行数据库结构设计时维护的字段信息说明。 拓展开来地讲,元数据和其所描述地数据,也不是绝对的关系,被元数据描述的数据,也可以描述元数据。
指标、衍生指标、原子指标区别
指标是描述事务特征和趋势的数据,参照元数据概念,指标是元数据的一种。按数据描述的时刻分类,可以分为事实指标、预测指标;按描述的方式分类,可以分为定性指标、定量指标;按指标自身之间的关系分类,可以分为基础指标(衍生指标、原子指标)、衍生指标(组合指标)。 从业务角度上看,事实指标反应的是业务事前的状态,在数字化新趋势下,仅仅依靠历史的数据,然后凭借业务人员的经验来解决业务问题,已经远远不够;如何基于对历史的描述,获取未来的洞察,采取相应的行动,是克服业务瓶颈的核心问题。 从数据工作者的角度来看,对原子指标和衍生指标的梳理和应用,能够在满足业务需求的同时,极大地缩小数据采集、加工、使用各方的工作量。因此,就指标本身的工作而言,设计一套合理的基础指标、衍生指标相辅相成的体系,是工作的核心内容。 指标+维度=衍生指标 维度是我们对事务的划分,是我们看待世界的方式。
数据产品经理的竞品报告怎么写
有没有产生数据价值的项目例子
券商的数据
参照 《证券期货业》 数据模型,券商的数据一般可以如下几类:
主体数据
主体是证券公司所关注的对象,主体数据域是证券公司开展客户关系管理、进行客户画像和标签管 理、建设以客户为中心的应用系统的重要基础性模型。作为核心数据域,主体数据域与账户、交易、资 产和合同等其他数据域之间存在着密切的关联关系。
账户数据
账户数据域是描述相关主体因业务需求在相关机构登记的各类账户信息,账户数据域按照账户类 型划分三大类,包括交易账户、资金账户、银行账户。 账户数据域中不仅包括了以客户为主体的账户(交易账户、资金账户、银行账户等),还包括了 证券公司内部记录的所有实际投资账户与虚拟投资账户。 账户数据域包含了账户从申请、开立到销户过程中需要的完整信息,与主体、合同、交易、资产 数据域有密切联系。 交易账户是指证券登记结算机构、基金公司等机构为投资者设立的,用于准确记载投资者所持的 证券种类、名称、数量及相应权益和变动情况的账册。按照交易的类型有证券账户、基金账户、基金交 易账户、中债登账户、资管账户、资管交易账户、贵金属交易账户、一码通证券账户等。此外,证券账 户分类下的某些特定账户存在一些特殊属性,如衍生品合约账户、股票质押出借人账户以及转融通证券 出借人账户等,因此对这些账户进行了单独的补充描述。资金账户是指证券公司为客户开立的专门用于 证券交易用途的账户,通过该账户对客户的证券买卖交易进行前端控制以及清算交收和计付利息等。资 金账户可按币种维度进行扩展。银行账户是指银行为客户开立的,用于存放和管理客户证券买卖用途的 交易结算资金的账户。
品种数据
品种数据域的设计参照了GB/T 35964-2018,并进一步结合国内现有金融工具品种,构建符合国际 规范且适应国内资本市场现状的品种分类及定义。品种的范围不仅包括证券公司本身对外提供的金融工 具和服务,还包括在证券公司业务流程中涉及的其他方提供的金融工具和服务,其中:品种分类的一、 二级遵照GB/T 35964-2018标准分类,一级分类包括权益、集合投资工具、债务工具、权利、上市期权、 非上市期权和复合上市期权、期货、互换、融资、参考性金融工具等;二级分类代表每个品种类别下的 细分品种;三级及以下级别分类为结合国内品种现状的自定义分类。
交易数据
交易数据域记录了各种与证券公司相关活动的详细情况。这些活动通常指证券公司与客户等主体的 交互活动,它记录了详细的交易和行为数据,还包括导致主体、账户、合同等其他数据域数据变化的非 交易行为数据。交易数据域可划分为交易事件和非交易事件。 交易事件按交易的过程划分为委托、成交、清算、待交收、股份变动、资金变动、其他交易流水七 个子数据域。交易事件主要按“交易过程+品种”进行层次划分,即先按交易过程进行分类,再在每个 交易过程中按品种进行分类,这样既可以保证交易数据域的稳定性,又保证了良好的可扩展性,证券公 司新增业务时,只需在委托等交易过程的子数据域下增加对应品种的交易事件实体。 非交易事件是指除上述交易事件外,证券公司与客户等主体的交互以及证券公司内部的业务交互, 分为管理类事件、操作类事件、服务类事件及其他类非交易事件四个子类的数据划分。非交易事件主要 围绕“经营管理领域+经营管理活动”进行层次划分,即先按经营管理领域进行分类,再在每个经营管 理领域中按经营管理活动进行分类,这样不仅保证高稳定性和可扩展性,同时同一经营管理领域具有相 近的管理属性,这样划分会使四个子类的数据划分信息更内聚,便于模型维护管理。
资产数据
资产数据域重点关注主体的资产,包括资金的余额、证券的持有、在途资金及证券、客户的抵质 押、负债,还包括一些具体场景下的修正。同时,将虚拟资产也一并纳入,以完整描述主体的拥有。 证券公司逻辑模型资产数据域不仅涵盖了客户的资产,还包括了证券公司自营的资产部分。 资产数据域按照资产的表现形式,可以分为:市值部分、资金部分、资产的修正、虚拟资产及负 债,其中市值部分包括了持仓、在途份额及代销产品份额持有;资金部分包括了资金余额、在途资金及 其他应收;虚拟资产包括了客户的积分;负债包括了应还的回购证券款、应还的融资本金、利息、罚息 及应还的融券市值等。 资产数据域的特点是,既反映了客户资产及证券公司自营资产的历史状态,也代表了未来的经济 价值,同时又与其他数据域密切相关。
合同数据
合同是证券公司根据相关法律法规、规章制度以及交易所的交易规则制定的协议。合同数据域的数 据涵盖证券公司与交易对手方线上签署的电子化合同,客户与证券公司签署的开展某种业务或购买某种 产品的协议,以及客户在进行证券交易时产生的交易合约。所以合同数据域既包括了签订的格式合同, 也包括了交易中涉及的各项合约。 合同分类包括:理财产品合同、融资融券授信合同、融资融券信用客户合同、转融通参与人合同、 证券收益互换合同。合约分类包括:场内合约、场外合约、银行间合约。其中场内合约是指股票交易市 场内标准化的合约交易,包括:融资融券、转融通、股票质押、债券回购、报价回购、约定购回合约; 场外合约指证券收益互换合约;银行间合约包括:利率互换合约、利率远期合约、债券远期合约、同业 拆借合约、证券借贷合约、协议存款合约、外汇远期合约、外汇掉期合约、信用违约掉期合约。
渠道数据
渠道用于表述业务发生的地点、通道或路径,通常与业务事件关联。渠道数据域由电话、呼叫中心、 柜台、银行、客户交易软件终端、合作方渠道及其他渠道组成。
营销数据
营销用于表述一个主体在意图开展营销活动的领域进行营销活动的行为方式,营销数据域的主要实 体有:营销活动、营销任务等。 营销活动的步骤为:确定营销目标,包括交付目标、预算等;制定营销策略和方案;根据营销方 案制定营销任务,包括资源计划和时间计划等;根据营销任务执行营销活动;最后是营销结果分析和改 进。营销数据域涵盖了营销活动全流程,记录营销过程中有价值的数据。
在证券公司逻辑模型的编制过程中,采用IBR 方法形成各数据域之间的关系、证券公司逻辑模型 中各数据域之间的关联关系如图1 所示。
根据数据域和数据域之间关联关系的分析结果,识别出各项业务均是围绕“主体”开展的特点, 最终确定特定主体的核心地位,形成从核心到外延的逻辑模型架构,从而确立了以“客户和机构”为核 心地位的证券公司逻辑模型架构,如图2 所示。
数据治理项目实施过程中的难点
监管要求,服务客户的优点、缺点和不足
数据产品经理
数据标准的作用,如何在源系统落标
一个报表给你,对什么建立检核规则
客户三要素
关键人(买单人),
这里可能是一个或者几个,因为有时候的采购者其实也是关键人。比如我们项目要开发同行的网站,采购的关键人就是桃明,而决策的关键人就是辉总。所以锁定关键人对于我们的工作是非常重要的。
购买力(消费习惯)
比如我们在同行的网站能发现的客户,大部分都是有付费消费习惯的客户。而不同的网站体现了不同客户的消费实力,比如能接受猎聘平台的企业相比接受大佛山网站企业的客户更能消费猎头和外包服务,这也是确认客户购买力的一种重要当然。
需求力
我把这个排到后面是我们都知道有需求,但又很难精准的了解需求。从而我们的工作就要学会挖掘需求,放大需求。
敏感信息&敏感数据
铭感信息是一旦暴露,就会给
数据合规怎么规划
数据安全怎么规划、
数据分级分类如何开展
咨询公司书写的数据管控平台需求说明书相比厂商的优势
数据管控平台
数据治理成熟度
数据治理成熟度用来衡量一家企业的数据治理或者说管理、以及应用的的一个健全和完善的水平。那么为了相对比较客观地来地进行这样一个评价呢,业界进行了很多的研究,有几个比价出门的评估模型,例如DCMM、、、、等
在DCMM中,定义了
数据标准的认责部门和数据资产的认责部门的关系
数据元和元数据的区别
数据元(Data element):又称数据类型,通过定义、标识、表示以及允许值等一系列属性描述的数据单元。在特定的语义环境中被认为是不可再分的最小数据单元。 元数据是关于数据的组织、数据域及其关系的信息,简言之,元数据就是关于数据的数据。
数据元一般来说由三部分组成:
- 对象类:思想、概念或真实世界中的事物的集合,它们具有清晰的边界和含义,其特征和行为遵循同样的规则。
- 特性:对象类中的所有成员共同具有的一个有别于其它的、显著的特征。
- 表示:它描述了数据被表达的方式。 元数据(Metadata)是描述其它数据的数据(data about other data),或者说是用于提供某种资源的有关信息的结构数据(structured data)。元数据是描述信息资源或数据等对象的数据,其使用目的在于:识别资源;评价资源;追踪资源在使用过程中的变化;实现简单高效地管理大量网络化数据;实现信息资源的有效发现、查找、一体化组织和对使用资源的有效管理。
元数据的基本特点主要有:
- 元数据一经建立,便可共享。元数据的结构和完整性依赖于信息资源的价值和使用环境;元数据的开发与利用环境往往是一个变化的分布式环境;任何一种格式都不可能完全满足不同团体的不同需要;
- 元数据首先是一种编码体系。元数据是用来描述数字化信息资源,特别是网络信息资源的编码体系,这导致了元数据和传统数据编码体系的根本区别;元数据的最为重要的特征和功能是为数字化信息资源建立一种机器可理解框架。 元数据体系构建了电子政务的逻辑框架和基本模型,从而决定了电子政务的功能特征、运行模式和系统运行的总体性能。电子政务的运作都基于元数据来实现。其主要作用有:描述功能、整合功能、控制功能和代理功能。 由于元数据也是数据,因此可以用类似数据的方法在数据库中进行存储和获取。如果提供数据元的组织同时提供描述数据元的元数据,将会使数据元的使用变得准确而高效。用户在使用数据时可以首先查看其元数据以便能够获取自己所需的信息。
- 数据元是用来装载数据的一个数据单元(字段)。
- 元数据是用来描述数据的数据,包括数据元。
企业如何进行数据治理
关于企业如何进行数据治理,其实是一个非常大的命题,其实我们并不会就这个问题去给出直接的具体的答案。因为就不同行业、不同规模、不同性质的企业而言,开展数据治理的初衷、动力,以及在此过程中需要解决的困难,往往都是不太相同的。国内的数据治理,最初可能是来自一纸政令,《银保监会数据治理指引》的发布,以银行为首的金融企业在监管的高压下,率先展开了数据治理的实践。这种实践往往是声势浩大的,毫无疑问也取得了一定的成就,但是,由于监管是主要的驱动力,因此数据治理的范围更加聚焦监管,甚至可能会变成应对监管。在这个过程中,企业建立了很多数据管理制度、数据标准、数据管控平台等,但是这一系列的东西,其实很多情况下是没有形成一种常态化的机制去运行的。很多企业把数据治理当成是一个项目来做,但其实数据治理他更是一项长期化的工程,并且这套工程它不应该是在企业现有管理体系中附加,需要整合到企业现有业务和管理流程中去,才能从根本上起到数据治理的作用。
所以,仅仅从监管的角度去开展数据治理工作,是缺乏后劲的。随着数字经济的发展,如何利用数据赋能业务,以高质量的监管数据反哺业务,是促进数据治理工作进一步横向和纵向深化的新趋势。数据治理要解决的核心问题,变成利用数据治理构筑一套数据生产、加工、存储和使用全生命周期的管理体系,为场景化的数据应用打牢数据基础。
那从这两年国家对互联网行业治理,以及《数据安全法》和《个人信息保护法》的颁布,需要满足数据合规要求的企业范围更大了,以及数据合规的要求一下子就变得非常重要了。对于需要采集个人信息、涉及跨境数据传输的企业,优先去实现这部分的合规要求就是最迫切的。
所以回到企业如何开展数据治理,首先合规的需要是第一步,基于合规的需求,去分析当前企业满足数据治理合规需求的要点,这部分的工作应当是具有迫切性的首先去开展的。其次就是结合企业领导的要求,调研业务上的需要,分析当前企业哪些方面的数据问题,对日常生产经营和管理造成了影响。主数据通常可以作为一个切入点,如果企业当前还没有建立机构、客户、员工、产品等主数据,并且让其得到及时的维护,那这部分就可以作为一个主要的工作去推进,这部分工作内容其实是高度业务想干的,最终也会让所有部门收益的。所以这部分工作的成果做快来,也是大家都能够看到的。
指标如何分析应用解决问题(美团)
指标建好之后会有后续的分析挖掘(美团)
互联网和银行数据的区别(美团)
举例子如何拆分指标 建立指标体系(美团)
标签或者指标的输入是自发的,如何建(美团)
你对互联网数据有了解吗(美团)
不同客户的数据治理需求有何不同(美团)
东北证券
优劣势
业务属性谁写
元数据
数据制度 数据
最擅长什么
数据质量怎么管
数据标准怎么建立
主数据
如何给我们做数据治理工作
西南证券
如何建立数据治理组织
数据标准是什么,举例子
元数据功能如何设计
元数据
元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。
主数据
主数据(MD Master Data)指系统间共享数据(例如,客户、供应商、账户和组织部门相关数据)。与记录业务活动,波动较大的交易数据相比,主数据(也称基准数据)变化缓慢。
数据仓库
数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
数据中台
数据模型
数据模型(Data Model)是数据特征的抽象,它从抽象层次上描述了系统的静态特征、动态行为和约束条件,为数据库系统的信息表示与操作提供一个抽象的框架。数据模型所描述的内容有三部分,分别是数据结构、数据操作和数据约束。
数据库范式
设计关系数据库时,遵从不同的规范要求,设计出合理的关系型数据库,这些不同的规范要求被称为不同的范式,各种范式呈递次规范,越高的范式数据库冗余越小。
DCMM
数据治理
数据治理(Data Governance)是组织中涉及数据使用的一整套管理行为。由企业数据治理部门发起并推行,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。
国际数据管理协会(DAMA)给出的定义:数据治理是对数据资产管理行使权力和控制的活动集合。
国际数据治理研究所(DGI)给出的定义:数据治理是一个通过一系列信息相关的过程来实现决策权和职责分工的系统,这些过程按照达成共识的模型来执行,该模型描述了谁(Who)能根据什么信息,在什么时间(When)和情况(Where)下,用什么方法(How),采取什么行动(What)。
数据分析
数据挖掘
数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
数据应用
大数据价值创造的关键在于大数据的应用,随着大数据技术飞速发展,大数据应用已经融入各行各业。大数据产业正快速发展成为新一代信息技术和服务业态,即对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,并从中发现新知识、创造新价值、提升新能力。我国大数据应用技术的发展将涉及机器学习、多学科融合、大规模应用开源技术等领域。 [1]
明细数据、基础数据
指标数据
- 感谢你赐予我前进的力量