操作手册
用户准备
新建用户使用数据集成开发平台(FlowMan),需确保该用户在KDP中存在于一个机构安全组。下面演示新建机构且将其加入机构安全组步骤:
添加机构类型安全组
激活安全组
添加用户进入机构安全组
具体操作,详见KDP操作手册。
首页
Flowman【首页】中直观呈现多项数据。包含统计作业数目、作业分布图、作业失败排名以及调度任务安排。
注: 本系统中一个作业可包含多个任务。例如,一个作业的调度周期为每天0点运行一次,那么每运行一次即为一个任务。
作业分布图
作业分布图中直观显示各项作业的占比情况,方便用户合理观察到进行中的各项作业情况。
信息项 | 解释 |
---|---|
Clickhouse作业 | ClickHouse 是一个真正的列式数据库管理系统 |
自定义作业 | 依照用户自身的需要编写作业,进行数据处理等操作 |
Hive作业 | Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive作业则是创建对应的工程 |
Datax作业 | Datax是离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能 |
采集作业 | 对数据源进行数据抓取,获取到用户需要的数据信息 |
rdb作业 | 此处rdb指的通用关系型数据库。当前版本是Tidb,一种开源分布式关系型数据库,同时支持在线事务处理与在线分析处理的融合型分布式数据库产品 |
Spark作业 | Spark 是专为大规模数据处理而设计的快速通用的计算引擎,Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为 |
作业失败排名
作业失败排名列表展示失败作业名称和失败次数,右上角可通过开关选择按照占比或数量进行排序,用户可以直接找到失败次数多的作业并分析具体原因。
点击作业名称,可以进入作业列表查看详情,具体见【任务管理】模块描述。
调度任务安排
调度任务安排展示的是当前正在排队的任务,主要展示的信息有作业名称、调度时间和排队时长。
点击“查看更多”,页面跳转至调度任务安排列表,支持选择任务取消排队;查看更多是将当前的作业进行管理调度,安排当前的各项作业。点击详情进入,可以对每个人物进行操作,将任务移动到任意序列,依次执行。
资源集成中心
用户通过资源集成中心界面为系统接入数据源并添加计算资源,所有用户可添加数据库,仅系统管理员有权限管理计算资源。对数据源和计算资源的管理,系统支持导出已有的数据源配置和计算资源配置,同时支持上传本地的资源配置文件。
数据源列表
【资源集成中心】-【数据源列表】中,列表展示了当前用户权限下的数据源信息,信息项有名称、资源类型、环境、创建时间、更新时间及操作。可实现数据源的搜索、修改、删除、导出及上传配置功能。
- 搜索功能具体可以根据数据源名称,资源类型以及资源创建时间范围进行组合搜索。
信息项 | 解释 |
---|---|
数据源 | 数据源是指数据库应用程序所使用的数据库或者数据库服务器 |
名称 | 输入全称或关键字进行检索 |
资源类型 | 多种数据库类型筛选:Oracle、Mysql、TiDB、Mongo、SqlServer、MPP(PgSql)、KingBase、DB2、达梦、Cassandra |
Oracle | 一种关系数据库管理系统,系统可移植性好、使用方便、功能强,适用于各类大、中、小微机环境。它是一种高效率的、可靠性好的、适应高吞吐量的数据库方案 |
Mysql | 一种关系型数据库管理系统,关系数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了灵活性。 |
TiDB | 一种开源分布式关系型数据库,是一款同时支持在线事务处理与在线分析处理的融合型分布式数据库产品,具备水平扩容或者缩容、金融级高可用、实时 HTAP、云原生的分布式数据库、兼容 MySQL 5.7 协议和 MySQL 生态等重要特性。 |
Mongo | 一个基于分布式文件存储的数据库。由 C++ 语言编写。旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。 |
SqlServer | 结构化查询语言。SQL语言的主要功能就是同各种数据库建立联系,进行沟通。按照ANSI(美国国家标准协会)的规定,SQL被作为关系型数据库管理系统的标准语言。SQL Server是由Microsoft开发和推广的关系数据库管理系统 |
MPP(PgSql) | MPP是一种海量数据实时分析架构。每个节点运行自己的操作系统和数据库等,节点之间信息交互只能通过网络连接实现。 |
KingBase | 人大金仓数据库管理系统KingbaseES是北京人大金仓信息技术股份有限公司自主研制开发的具有自主知识产权的通用关系型数据库管理系统。 |
DB2 | IBM开发的一种关系型数据库管理系统,是一个成熟的、功能强大的商业数据库解决方案,具有良好的可靠性、性能和扩展性,被广泛用于企业级应用程序和大型数据管理。 |
达梦 | 中国达梦公司开发的一种关系型数据库管理系统,是中国自主研发的商业数据库产品之一,注重本土化需求和适应性,并致力于提供与国际标准兼容的功能和性能,被广泛应用于各种企业级应用和数据管理场景。 |
Cassandra | 一种开源的分布式、高可扩展的NoSQL数据库系统,在大数据、云计算和分布式系统领域被广泛应用,特别适合需要高可扩展性、高吞吐量和容错能力的应用程序和场景。 |
通过点击具体的数据源名称获得基本配置信息,修改数据源基础数值,进行保存更新,界面上的测试链接按钮,可以测试该数据源的连通性,方便用户确认修改信息前后数据源连通性是否改变。
右上角导出按钮:支持用户导出列表中已有的数据资源。用户勾选所需的数据源名称,点击导出按钮便可以导出所选择的数据资源配置;若不勾选任何资源,则默认导出全部信息。该功能可以用于数据备份、数据迁移等场景。
注:导出文件为json格式,可用记事本、Notepad等工具打开修改。
右上角上传配置按钮:支持用户通过上传配置的方式来添加数据资源,用户预先准备好json文件,将数据源配置信息准备好,之后可通过拖拽或浏览方式上传本地的资源配置文件,完成后,可以在【数据源列表】界面的数据资源列表搜索查看。
导入配置的格式可以参考以下内容:
{ |
计算资源列表
系统管理员可见
【资源集成中心】-【计算资源列表】中,列表展示用户的计算资源信息。可以根据计算资源名称以及计算资源创建时间范围进行搜索。界面展示信息有计算资源名称、资源类型、环境、创建时间、更新时间和操作。支持对计算资源进行修改、删除、导出及上传配置。
如果对接云原生K8s大数据平台(KDP),则不需要用户自己新增计算资源。系统按照依赖顺序安装的时候,会自动初始化计算资源。
如果对接用户已有的大数据平台,则需要用户按照我们计算资源每一项配置内容提供计算资源相关配置和地址信息; 可配置计算资源种类有:Clickhouse、ElasticSearch、Hadoop、Hive。Artifact系统自动初始化,不需要额外配置。
正确配置了Clickhouse,才能使用Clickhouse作业;正确配置了ElasticSearch,才能使用DataX作业关于ES作为输出源的相关功能;正确配置了Hadoop、hive的计算资源,才能使用采集、Hive、DataX作业中关于HDFS和hive相关功能。每一种资源类型(Hadoop、Hive、ES、Clickhouse),仅支持对接一个集群的配置。
注:系统采用开放式架构,可根据实际生产需要接入其他类型计算资源,例如TiDB。
信息项 | 解释 |
---|---|
Artifact | Artifact 是maven中的一个概念,表示某个module要如何打包。可以理解为一个web项目。 |
Clickhouse | 列式存储数据库(DBMS),主要用于在线分析处理查询(OLAP),能够使用SQL 查询实时生成分析数据报告 |
ElasticSearch | 一个分布式,高性能、高可用、可伸缩、RESTful 风格的搜索和数据分析引擎 |
Hadoop | 在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架 |
Hive | 基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能 |
- 右上角导出按钮:支持用户导出列表中已有的计算资源。用户只需要勾选所需的一个或者多个资源,点击按钮便可以导出所选择的计算资源配置,如不勾选任何资源,则默认选择全部。
- 右上角上传配置按钮:支持用户通过上传配置的方式来添加数据资源,用户预先准备好json文件,将数据源配置信息准备好,之后可通过拖拽或浏览方式上传本地的资源配置文件,完成后,可以在【计算资源列表】界面的数据资源列表搜索查看。
Artifact
系统自动初始化,不需要用户填写
Clickhouse
- host:主机地址
- httpPort:提供http访问方式的端口
- tcpPort:提供tcp访问方式的端口
- user:访问的用户名
- password:访问的密码
ElasticSearch
- hosts:地址
- user:访问的用户名
- pwd:访问的密码
Hadoop
- core-site.xml:hdfs集群配置文件core-site.xml内容
- hdfs-site.xml:hdfs集群配置文件hdfs-site.xml内容
- yarn-site.xml:hdfs集群配置文件yarn-site.xml内容
- webhdfs:hdfs集群对应webhdfs地址
- httpfs-gateway-address:httpfs-gateway组件提供外面访问的地址
Hive
- hive-site.xml:hs2服务里面的hive-site.xml配置文件
- hs2_address:hs2的访问地址
- hs2_principal_server:hs2开启kerberos后的principal server信息,一般是hive,hs2_principal三段里的第一段信息
- hs2_principal:hs开启kerberos后的principal信息,为三段信息,比如:hive/_HOST@LINKTIME.CLOUD
- hms_db_info:hms服务连接数据库的名字
- hive-zk-namespace:hs2开启zk的集群模式,在zk上注册的namespace
- zookeeper:hs2开启zk的集群模式连接的zk地址
- hive_metastore_jdbc_url:hms服务连接数据库的地址,下面关于hms数据库信息的目的是为了快速获取hms的元数据
- hive_metastore_user:hms服务连接数据库的用户名
- hive_metastore_pwd:hms服务连接数据库的密码
添加数据库
【资源集成中心】-【添加数据库】中,用户通过填写基本配置,来建立数据库连接,以便程序/作业可以直接使用该数据库,数据库可以是本地数据库或是部署集群的数据库。同时还可以针对不同类型的数据库类型,选择特定的驱动(实现JDBC规范的jar包的JDBC驱动,系统通过JDBC接口执行数据库操作命令)。
信息项 | 说明 |
---|---|
名称 | 用户自定义服务器 |
数据源类型 | 选择当前添加数据源为采集数据源或导出数据源 |
数据库类型 | 目前支持Oracle/MySQL/TiDB/MongoDB/SqlServer/MPP(Pgsql)/KingBase/DB2/Dameng/Cassandra,其他类型数据库可联系智领云人员确认是否可以添加 |
Driver | java连接数据库的驱动类名称 |
数据库名称 | 这是需要填写数据库名称 |
主机 | 用户填写主机IP(数据库服务器IP) |
端口 | 每种数据库均有对应默认端口,也可根据情况自行修改 |
用户名 | 用户连接数据库的用户名 |
密码 | 用户连接数据库所用的用户名密码,不填即表示使用默认密码 |
在完成数据库配置后,点击【测试连接】进行数据库的连接测试工作。测试成功后保存配置信息。
注:数据库添加的基础条件为网络能够互通。
添加计算资源
系统管理员可见
【资源集成中心】-【添加计算资源】中。系统管理员需填写基本信息和计算资源信息,目前支持六种数据计算资源:Artifact、Clickhouse、ElasticSearch、Hadoop、Hive、TiDB。在界面中,用户可以填写需要添加的计算资源类型。计算资源可由运维人员提供,在文件服务器自行进行上传配置。
以TiDB为例,如下图所示,其他资源详见【资源集成中心】-【计算资源列表】模块描述:
完成配置项的填写后,点击【测试连接】,确保所添加的资源可以正常访问。
注:若在实际使用中系统所提供的变量不满足于实际生产环境,用户可以通过【添加变量】的方式自定义所需要的变量。
程序坞
Worker列表
系统管理员可修改所有类型Worker
其他用户仅可修改自定义类型worker
【程序坞】-【Worker列表】中,可查看当前系统中的Worker列表,界面分别展示Worker ID、名称、类型、描述以及镜像名称。
注:Worker可为JavaScript创建多线程环境。
用户可通过“Worker名称”和“镜像名称”来搜索相关的Worker,可采用关键字或全称进行搜索,同时支持用户对已有的Worker进行编辑修改及删除。
若系统管理员用户点击修改,进入以下界面,可以对其中的镜像名称、Worker类型或描述进行内容修改。
新增Worker
系统管理员可创建所有类型Worker
其他用户仅可创建自定义类型worker
【程序坞】-【新增Worker】中,用户可以为集群添加一个Worker,添加完成后保存。
其中信息项可参考如下:
信息项 | 内容 | 说明 |
---|---|---|
名称* | user-defined-worder | 用户自定义名称 |
镜像名称* | hankin-worker:1.0 | 用户根据实际情况填写镜像名称,不影响程序执行 |
描述 | - | 选填项 |
自定义Hive函数列表
【程序坞】-【自定义Hive函数列表】中,界面列表展示目前系统中的自定义Hive函数相关信息,信息包含函数名、类路径、数据库、Jar包、更新时间及创建的用户。可以通过名称、函数名称和数据库进行组合搜索,或对Hive函数进行修改。
系统提供用户自定义Hive函数功能,用户在编写 Hive 作业的时候,能够直接调用用户自定义函数功能。添加类似于“截断,掩码,加密”的通用的功能,用户可通过此界面进行集中管理并灵活复用。
- 修改,可以对基本信息和函数可用的参数信息进行修改,修改完成后可以进行试运行验证。
新增自定义Hive函数
【程序坞】-【新增自定义Hive函数】中,用户可以在界面进行自定义添加Hive函数,以便在创建的Hive作业中灵活调用这些函数。需要填写的有基本信息和函数可用参数信息,可参考下表进行填入。
类目 | 内容 | 补充 |
---|---|---|
名称* | 用户自定义 | |
函数名* | 用户自定义,建议填入字母、数字、下划线,如:demo_test01 | |
类路径* | 填入上传jar包的主程序相对路径 | |
数据库* | 从下拉框选择已和本系统建立连接的数据库 | |
jar包地址* | 点击上传jar包后自动填入。上传成功后,可在Hive作业中通过Hive语句灵活调用UDF的编写参考 https://cwiki.apache.org/confluence/display/Hive/HivePlugins |
程序列表
【程序坞】-【程序列表】中,界面列表展示用户已创建的程序及相关信息:程序名称、版本号、程序来源、描述、Worker名称。
信息项 | 解释 |
---|---|
名称 | 用户自定义 |
版本号 | 可以根据程序自动更新版本号,也可以用户自定义 |
程序来源 | 自定义或预置程序 |
描述 | 用户自定义 |
Worker名称 | 新增程序时选择附属的Worker,来指定程序运行的容器环境 |
用户可以通过程序名称、Work名称和程序来源的组合方式来快速搜索程序,也可以对程序进行查看、试运行、删除操作。
点击查看:可以看到各个程序的试运行记录,列表展示的信息有试运行名称、操作用户、开始运行时间、运行时长及运行状态。点击具体试运行名称,页面跳转至【程序运行日志】详情页面。
点击试运行:界面会展示当前程序的信息,程序主体部分展示程序列表基本信息,包含试运行名称,这里由用户自己定义。自定义程序中,程序名称与选择试运行的程序名称一致,版本号由用户定义,也可自定义程序参数。
高级设置中,可以对系统变量、用户自定义变量、数据源配置进行修改。
完成配置后,即可点击右上角进行试运行。
新增程序
系统管理员可创建预置、自定义程序
其他用户仅可创建自定义程序
【程序坞】-【新增程序】中,用户可以配置信息创建新的程序,可参考如下表格填写配置信息:
信息项 | 说明 |
---|---|
程序名称* | 自定义程序名称 |
程序来源* | 选择“预置程序”或者“自定义程序” |
指定Worker* | 指定程序运行的容器环境,点击下拉列表框选择已有Worker,或点击链接创建所需Worker |
程序版本变更策略 | 系统自动自增或用户自定义版本号 |
主程序包* | 本地编辑的程序,仅支持tgz文件,支持复制打包命令进行打包 |
描述 | 用户自定义描述 |
填写完成后,点击右上角,保存并试运行。
点击试运行按钮,跳转至【程序运行日志】详情页。
程序运行日志
【程序坞】-【程序运行日志】中,列表展示程序名称及相关信息,包含试运行名称、用户、开始运行时间、运行时长、运行类型、运行状态。界面支持组合搜索。
- 点击具体试运行名称,页面跳转至试运行日志详情页。详情包含试运行程序基本信息,参数信息以及运行日志。试运行成功程序支持快捷「转换成作业」。
作业管理
支持多种类型定制化作业,结合自定义工作流的方式,帮助用户轻松管理成千上万个服务任务。支持用户创建采集、TiDB、Hive、Spark、Clickhouse、DataX 等作业,并为其设置所需的调度周期。
在新建采集、Hive、Spark作业前,需在云原生k8s大数据平台(KDP)中确认当前机构安全组启动了linktime-hs2应用。否则采集作业无法运行成功。可在KDP【系统应用】页面查看当前安全组下hs2应用是否正常启动。
若未启动,需要系统管理员或机构管理员在KDP【应用市场】中所在机构安全组的linktime-hs2应用。
新建采集作业
【作业管理】-【新建采集作业】中,用户可通过填写基本信息、配置信息等,新建采集作业,从不同的数据源中采集数据到目标数据库。用户可参考如下说明,进行采集作业配置。
- 基本信息
信息项 | 内容 | 说明 |
---|---|---|
名称* | job_name | 作业名称用户可自行设定 |
数据源* | 下拉框选择 | 由用户在【资源集成中心-添加数据库】加入 |
表* | 已选择的数据库中的数据表 | |
作业调度周期 | 用户自行选择调度周期,可参考“Cron表达式”用法进行修改 | |
开始时间* | 默认当天零点时间,用户可根据需要选择过去、现在或将来任何时间 | |
结束时间 | 默认不填 | 可以指定作业结束时间 |
失败重试次数* | 默认3 | 系统提供0,1,2,3四种重试次数 |
重试间隔(单位:秒)* | 默认60 | 系统提供60,120,180秒三种选项 |
数据范围* | 默认全量 | 全量或增量(周期性采集选择增量) |
增量字段(列) | 以时间维度增量 |
注:
- 数据源支持输入源为 MySql/Oracle/SqlServer/Cassandra ,输出源支持 HDFS/Hive。其中输入源不支持SqlServer自带的系统表(对象名 ‘trace_xe_action_map’ 无效错误),且表名仅支持小写字母、数字、下划线,不可包含其他字符。
- Cron表达式的结构,它的标准格式为:“A B C D E F”,A表示秒,B表示分,C表示小时,D表示日,E表示月,F表示星期。举例见下图:
- 配置信息
- 导出设置
- 分区设置
- 自定义参数设置
信息项 | 内容 | 说明 |
---|---|---|
导出的字段(列) | 默认全部导出 | 置空表示全部导出。也可进行自定义导出的字段名。 |
自定义变量 | 默认关闭,可进行具体设置,包括常量变量和时间变量 | |
where | 使用时根据实际需要进行填写SQL语句,并可对语法进行验证 | |
选择并行依赖字段 | 对数据库中的字段进行并行依赖的选择 | |
设置并行度 | 当数据量大时,设置并行任务数,以提高数据采集效率 | |
数据分区字段 | 默认0 | 支持year、month、day、hour、minute、second。六个字段可以进行任意组合,不同的组合对应存储路径变化。场景主要用于可对应调度周期,例如,当调度周期是按月,则分区字段调整为year和month |
数据分区存储路径格式 | 保持默认 | |
自定义参数设置 | 可使用json格式填写需要的自定义参数 |
- 导出信息
- Hive数据存储方式
条目 | 内容 | 说明 |
---|---|---|
数据存储方式 | Hive | 系统支持HDFS/Hive两种数据存储方式。存储到Hive比HDFS多了一层支持关系型库表查询的计算方式。如果需要对数据进行快速方便的SQL计算,应该以Hive方式存储 |
Hive 数据库名称 | 选择数据库 | 根据实际情况从下拉框选择 |
Hive 表名称 | 填入Hive表名称 | 选择上一步所选择Hive数据库内的Hive表 |
HDFS 存储路径 | 自动写入,不可更改。路径是默认规则生成的:/user/${用户名}/ingestion/${数据库名}${数据库表}${采集周期}_${采集范围},例如从etl数据库每小时全量采集job表,默认规则是/user/dcos/ingestion/etl_job_hourly_full |
- HDFS数据存储方式
条目 | 内容 | 说明 |
---|---|---|
数据存储方式 | HDFS | 系统支持HDFS/Hive两种数据存储方式 |
HDFS存储路径* | 根据实际情况进行填写 |
新建TiDB作业
【作业管理】-【新建TiDB作业】中,用户可以新建rdb类型作业,界面展示内容为构建作业需填写的信息,分为作业主体和高级设置两大部分。
作业主体
该部分由三块组成:基本信息,作业计划、编写主程序
- 基本信息
信息项 | 说明 |
---|---|
名称* | 用户自定义作业名称 |
拥有者* | 下拉框选择用户账号作为该作业的拥有者 |
描述 | 对作业进行描述说明,非必填项 |
- 作业计划
信息项 | 内容 | 说明 |
---|---|---|
调度周期 | 用户自行选择调度周期,可参考“Cron表达式”用法进行填写 | |
开始时间 | 默认当天零点时间 | 用户可根据需要选择过去、现在或将来任何时间 |
失败重试次数 | 默认3 | 用户可自行输入重试次数 |
重试间隔时间(单位:秒) | 默认60 | 用户可自行输入重试间隔时间 |
- 编写主程序
信息项 | 说明 |
---|---|
编辑 | 用户在此区域编辑TiDB Sql |
预览 | 点击预览可查看脚本内容 |
试运行 | 点击试运行按钮可执行输入的Sql语句 |
注:如果Sql中没有通过语句指定数据库,则会默认使用default数据库。
高级配置
用户可通过高级配置对TiDB作业进行更进一步的配置。在高级配置中,支持通过高级功能的勾选,对具体配置信息进行配置或隐藏。具体支持的高级配置有:设置系统变量,设置用户自定义变量。
信息项 | 内容 | 说明 |
---|---|---|
系统变量 | 默认无 | 系统提供year,month,hour,day,minute,second,datetime及timestamps等变量,用户根据需要设置参数。系统时间变量是提供当前调度时间对应某个固定格式的变量,比如year就是调度时间的年份、datetime就是yyyyMMddHHmmss的固定格式。主要作用在于,如果被调度的程序,需要获取调度时间,则可以通过上述变量进行传递。 |
用户自定义变量 | 默认无 | 用户根据需要,自行【添加】变量并设置参数值。系统时间变量是提供当前调度时间对应某个固定格式的变量,比如year就是调度时间的年份、datetime就是yyyyMMddHHmmss的固定格式。 时间变量的区别是,用户可以以调度时间为基准进行时间自定义,比如前一天,上个月同一天等,同时时间格式也是可以自定义的。 |
配置完成后,可进行保存及试运行。
新建Hive作业
【作业管理】-【新建Hive作业】中,用户可以新建Hive作业,界面展示内容为构建作业需填写的信息,分为作业主体和高级设置两大部分。
作业主体
该部分由三块组成:基本信息,作业计划、编写主程序
- 基本信息
信息项 | 说明 |
---|---|
名称* | 用户自定义作业名称 |
拥有者* | 下拉框选择用户账号作为该作业的拥有者 |
描述 | 对作业进行描述说明,非必填项 |
- 作业计划
信息项 | 内容 | 说明 |
---|---|---|
调度周期 | 用户自行选择调度周期,可参考“Cron表达式”用法进行填写 | |
开始时间 | 默认当天零点时间 | 用户可根据需要选择过去、现在或将来任何时间 |
失败重试次数 | 默认3 | 用户可自行输入重试次数 |
重试间隔时间(单位:秒) | 默认60 | 用户可自行输入重试间隔时间 |
- 编写主程序
信息项 | 说明 |
---|---|
编辑 | 用户在此区域编辑Hive Sql |
预览 | 点击预览可查看脚本内容 |
试运行 | 点击试运行按钮可执行输入的HSQL |
注:如果Sql中没有通过语句指定数据库,则会默认使用default数据库。
高级配置
用户可通过高级配置对Hive作业进行更进一步的配置。在高级配置中,支持通过高级功能的勾选,对具体配置信息进行配置或隐藏。具体支持的高级配置有:设置系统变量,设置用户自定义变量,上传python文件来辅助计算,设置HQL变量,以及制定计算使用的数据库资源。
信息项 | 内容 | 说明 |
---|---|---|
系统变量 | 默认无 | 系统提供year,month,hour,day,minute,second,datetime及timestamps等变量,用户根据需要设置参数。系统时间变量是提供当前调度时间对应某个固定格式的变量,比如year就是调度时间的年份、datetime就是yyyyMMddHHmmss的固定格式。主要作用在于,如果被调度的程序,需要获取调度时间,则可以通过上述变量进行传递。 |
用户自定义变量 | 默认无 | 用户根据需要,自行【添加】变量并设置参数值。系统时间变量是提供当前调度时间对应某个固定格式的变量,比如year就是调度时间的年份、datetime就是yyyyMMddHHmmss的固定格式。 时间变量的区别是,用户可以以调度时间为基准进行时间自定义,比如前一天,上个月同一天等,同时时间格式也是可以自定义的。 |
上传Python文件 | 默认无 | 用户根据需要,上传已编辑好的Python文件 。python文件是用户编写的自定义函数,Hive调用python脚本实现数据清洗、统计过程。参考用例:https://dwgeek.com/hive-udf-using-python-use-python-script-into-hive-example.html/ |
HQL变量 | 默认无 | 用户根据需要,自行【添加】变量并设置参数值。将复杂的HQL拆解成多个子HQL执行,将子HQL的执行结果赋值给HQL变量,然后变量给到其他HQL使用。 |
数据源配置 | 用户根据需要,选择作业需要用的数据源,并给数据源定义键名 |
*注 HQL变量用法:
变量名 HQLpv_numselect :count(view_page) from page_view where page='首页' |
新建Spark作业
【作业管理】-【新建Spark作业】中,用户可以新建Spark作业,界面展示内容为构建作业需填写的信息,分为作业主体和高级设置两大部分。系统支持用户上传程序,为Spark作业进行设置。用户还可以通过高级功能对Spark作业进行更进一步的配置,目前的高级功能支持:设置系统变量,设置用户自定义变量,以及制定计算使用的数据库资源。
作业主体
- 基本信息
信息项 | 说明 |
---|---|
名称* | 用户自定义作业名称 |
拥有者* | 下拉框选择用户账号作为该作业的拥有者 |
描述 | 对作业进行描述说明,非必填项 |
- 作业计划
信息项 | 内容 | 说明 |
---|---|---|
调度周期 | 用户自行选择调度周期,可参考Cron表达式用法进行修改 | |
开始时间 | 默认当天零点时间,用户可根据需要选择过去、现在或将来任何时间 | |
结束时间 | 默认不填 | 用户可以指定作业结束时间。指定了结束时间,这个作业按时调度,当过了结束时间,就不会再被调度,场景可以用于补一段历史时间的数据 |
失败重试次数 | 默认3 | 可自行设置重试次数 |
重试间隔时间(单位:秒) | 默认60 | 系统提供以60s为间隔的设置重试间隔时间 |
- Spark运行参数
信息项 | 内容 | 说明 |
---|---|---|
executor-memory* | 1g(系统默认) | 执行器的内存,用户自定义 |
executor-cores* | 1(系统默认) | 执行器内核个数,用户自定义 |
total-executor-cores* | 1(系统默认) | 执行器的内核个数总和 |
driver-memory* | 1g(系统默认) | 驱动参数,用户自定义 |
dirver-cores | 1(系统默认) | 驱动内核数,用户自定义 |
- Spark-Java程序配置
编写java语言,使用spark计算引擎进行数据清洗和整合,批处理的技术手段,性能上优于hive。
信息项 | 内容 | 说明 |
---|---|---|
主程序* | 点击【上传】本地程序包 | 将已制作好的程序包上传 |
主程序类* | 用户主程序类的值 | |
程序参数 | 用户自定义 |
- Spark-Python程序配置
编写python语言,使用spark计算引擎进行数据清洗和整合,批处理的技术手段,性能上优于hive。
信息项 | 内容 | 说明 |
---|---|---|
主程序* | 点击【上传】程序包 | 将已制作好的程序包上传,支持添加多个 |
第三方库依赖文件 | 点击【上传】依赖文件 | 将已制作好的第三方库依赖文件上传,支持添加多个依赖包可支持一个或多个.zip,.egg或 .py文件 |
程序参数 | 用户自定义 |
高级设置
信息项 | 内容 | 说明 |
---|---|---|
系统变量 | 默认无 | 系统提供year,month,hour,day,minute,second,datetime及timestamps等变量,用户根据需要设置参数。系统时间变量是提供当前调度时间对应某个固定格式的变量,比如year就是调度时间的年份、datetime就是yyyyMMddHHmmss的固定格式。主要作用在于,如果被调度的程序,需要获取调度时间,则可以通过上述变量进行传递。 |
用户自定义变量 | 默认无 | 用户根据需要,自行【添加】变量并设置参数值。系统时间变量是提供当前调度时间对应某个固定格式的变量,比如year就是调度时间的年份、datetime就是yyyyMMddHHmmss的固定格式。 时间变量的区别是,用户可以以调度时间为基准进行时间自定义,比如前一天,上个月同一天等,同时时间格式也是可以自定义的。 |
数据源配置 | 默认无 | 用户根据需要,选择作业需要用的数据源,并给数据源定义键名 |
新建ClickHouse作业
【作业管理】-【作业列表】中,用户可以新建 ClickHouse作业开始作业配置。界面展示内容为构建作业需填写的信息,分为作业主体和高级设置两大部分。系统支持用户编写主程序,为ClickHouse作业进行设置。用户还可以通过高级功能对ClickHouse作业进行更进一步的配置,目前的高级功能支持:设置系统变量,设置用户自定义变量。
作业主体
- 基本信息
信息项 | 说明 |
---|---|
名称* | 用户自定义作业名称 |
拥有者* | 下拉框选择用户账号作为该作业的拥有者 |
描述 | 对作业进行描述说明,非必填项 |
- 作业计划
信息项 | 内容 | 说明 |
---|---|---|
调度周期 | 用户自行选择调度周期,可参考Cron表达式用法进行修改 | |
开始时间 | 默认当天零点时间,用户可根据需要选择过去、现在或将来任何时间 | |
结束时间 | 默认不填 | 用户可以指定作业结束时间。指定了结束时间,这个作业按时调度,当过了结束时间,就不会再被调度,场景可以用于补一段历史时间的数据 |
失败重试次数 | 默认3 | 可自行设置重试次数 |
重试间隔时间(单位:秒) | 默认60 | 系统提供以60s为间隔的设置重试间隔时间 |
- 编写主程序
信息项 | 内容 | 说明 |
---|---|---|
编辑 | 用户在此区域编辑Spark Sql | |
预览 | 点击预览可查看脚本内容 |
高级设置
信息项 | 内容 | 说明 |
---|---|---|
系统变量 | 默认无 | 系统提供year,month,hour,day,minute,second,datetime及timestamps等变量,用户根据需要设置参数。系统时间变量是提供当前调度时间对应某个固定格式的变量,比如year就是调度时间的年份、datetime就是yyyyMMddHHmmss的固定格式。主要作用在于,如果被调度的程序,需要获取调度时间,则可以通过上述变量进行传递。 |
用户自定义变量 | 默认无 | 用户根据需要,自行【添加】变量并设置参数值。系统时间变量是提供当前调度时间对应某个固定格式的变量,比如year就是调度时间的年份、datetime就是yyyyMMddHHmmss的固定格式。 时间变量的区别是,用户可以以调度时间为基准进行时间自定义,比如前一天,上个月同一天等,同时时间格式也是可以自定义的。 |
新建DataX作业
【作业管理】-【新建DataX作业】中,用户可以新建DataX作业开始作业配置。界面展示内容为构建作业需填写的信息,分为作业主体和高级设置两大部分。
作业主体
该部分由五部分组成:基本信息,作业计划、数据源配置、字段映射转换管理、样本数据预览。
- 基本信息
信息项 | 说明 |
---|---|
名称* | 用户自定义作业名称 |
拥有者* | 下拉框选择用户账号作为该作业的拥有者 |
描述 | 对作业进行描述说明,非必填项 |
- 作业计划
信息项 | 内容 | 说明 |
---|---|---|
调度周期 | 用户自行选择调度周期,可参考Cron表达式用法进行修改 | |
开始时间 | 默认当天零点时间,用户可根据需要选择过去、现在或将来任何时间 | |
结束时间 | 默认不填 | 用户可以指定作业结束时间。指定了结束时间,这个作业按时调度,当过了结束时间,就不会再被调度,场景可以用于补一段历史时间的数据 |
失败重试次数 | 默认3 | 可自行设置重试次数 |
重试间隔时间(单位:秒) | 默认60 | 系统提供以60s为间隔的设置重试间隔时间,可以自定义 |
- 数据源配置
信息项 | 说明 |
---|---|
数据源 | 选择数据源类型(支持Hive、MySQL、Clickhouse、HDFS、Mongo、Oracle、触发器),进行参数配置。配置包含数据库名,表名,以及Query(进行查询字段等操作) |
输出源 | 选择数据源类型(支持Hive、MySQL、ElasticSearch、Clickhouse、Oracle、MPP(PgSql)),选择数据名称,是否新建表单以及数据变量。 |
注:系统以可扩展的方式,可根据用户实际生产需要灵活扩展输出源
- 字段映射转换管理
两边数据库中的表进行信息展示,可以进行匹配及修改。
- 样本数据预览
信息项 | 内容 | 说明 |
---|---|---|
展示条数 | 默认2条 | 可以选择展示2条,5条,10条,选择真实数据或样本数据 |
高级设置
信息项 | 内容 | 说明 |
---|---|---|
系统变量 | 默认无 | 系统提供year,month,hour,day,minute,second,datetime及timestamps等变量,用户根据需要设置参数。系统时间变量是提供当前调度时间对应某个固定格式的变量,比如year就是调度时间的年份、datetime就是yyyyMMddHHmmss的固定格式。主要作用在于,如果被调度的程序,需要获取调度时间,则可以通过上述变量进行传递。 |
用户自定义变量 | 默认无 | 用户根据需要,自行【添加】变量并设置参数值。系统时间变量是提供当前调度时间对应某个固定格式的变量,比如year就是调度时间的年份、datetime就是yyyyMMddHHmmss的固定格式。 时间变量的区别是,用户可以以调度时间为基准进行时间自定义,比如前一天,上个月同一天等,同时时间格式也是可以自定义的。 |
数据源配置 | 用户给数据源中添加数据源键名 |
配置完成后,可进行保存及试运行。
新建自定义作业
【作业管理】-【新建自定义作业】中,系统支持用户自定义作业,以满足更加丰富的业务场景,且方便批量添加变量。用户只需参照说明配置自己的自定义作业。界面展示内容为构建作业需填写的信息,分为作业主体和高级设置两大部分。
作业主体
作业主体由基本信息、作业计划、自定义程序组成。
- 基本信息
信息项 | 说明 |
---|---|
名称* | 用户自定义作业名称 |
拥有者* | 下拉框选择用户账号作为该作业的拥有者 |
描述 | 对作业进行描述说明,非必填项 |
- 作业计划
信息项 | 内容 | 说明 |
---|---|---|
调度周期 | 用户自行选择调度周期,可参考Cron表达式用法进行修改 | |
开始时间 | 默认当天零点时间,用户可根据需要选择过去、现在或将来任何时间 | |
结束时间 | 用户可以指定作业结束时间。指定了结束时间,这个作业按时调度,当过了结束时间,就不会再被调度,场景可以用于补一段历史时间的数据 | |
失败重试次数 | 默认3 | 用户可自行输入重试次数 |
重试间隔时间(单位:秒) | 默认60 | 用户可自行输入间隔时间 |
- 自定义程序
条目 | 内容 | 说明 |
---|---|---|
自定义程序 | 默认无 | 选择程序名称(只有自定义程序)和程序版本号 |
自定义程序参数 | 默认无 | 用户可通过代码形式自行添加程序参数,方便用户根据实际生产需要进行参数配置 |
高级设置
用户可通过高级功能对自定义作业进行更进一步的配置,目前的高级功能支持:设置系统变量,设置用户自定义变量,以及制定计算使用的数据库资源。同时支持使用JSON格式的参数配置。
信息项 | 内容 | 说明 |
---|---|---|
系统变量 | 默认无 | 系统提供year,month,hour,day,minute,second,datetime及timestamps等变量,用户根据需要设置参数。系统时间变量是提供当前调度时间对应某个固定格式的变量,比如year就是调度时间的年份、datetime就是yyyyMMddHHmmss的固定格式。主要作用在于,如果被调度的程序,需要获取调度时间,则可以通过上述变量进行传递。 |
用户自定义变量 | 默认无 | 用户根据需要,自行【添加】变量并设置参数值。系统时间变量是提供当前调度时间对应某个固定格式的变量,比如year就是调度时间的年份、datetime就是yyyyMMddHHmmss的固定格式。 时间变量的区别是,用户可以以调度时间为基准进行时间自定义,比如前一天,上个月同一天等,同时时间格式也是可以自定义的。 |
数据源配置 | 默认无 | 用户可选择此作业需要用的数据源,并给数据源定义键名 |
作业列表
【作业管理】-【作业列表】中,用户可查看作业创建的作业,并对单个/批量作业进行管理。列表展现的信息有:作业名称、调度周期、状态、创建时间、最新任务状态、失败任务数量、操作。
支持通过作业名称关键字、作业类型、状态、进度、最新任务状态对作业列表进行筛选。
批量操作
【作业管理】-【作业列表】中,支持勾选作业列表中的作业进行单个或批量管理,可进行启动、挂起、删除、克隆、导出、改变优先级操作。启动中的作业可进行挂起,挂起的作业可再次启动,通过编辑作业进行状态修改。
修改作业
【作业管理】-【作业列表】中,点击具体的作业名称,即可进入作业详情修改页,修改完成后点击保存完成修改。可以修改的选项有同作业类型的新建页面,字段含义详见新建作业中的具体描述。
修改作业页面中支持启动、试运行、跳转当前作业任务列表页面操作。
查看作业
【作业管理】-【作业列表】中,点击具体作业的「查看」操作按钮,抽屉形式显示作业的基本信息、作业计划两部分简要信息,支持进行 启动、试运行、进入任务列表、进入作业详情修改页操作。
查看任务列表
【作业管理】-【作业列表】中,用户通过筛选或精确搜索到目标采集作业,通过点击具体作业的「任务列表」操作,用户可以获知运行历史折线图及任务列表的调度时间、状态等。
任务列表界面上可以就日期范围、状态进行筛选,任务列表展示出对应任务信息,包含调度时间、作业名称、执行时间、状态、耗时等。
支持选择单个或多个任务重新执行或者标记。
作业删除
如用户不再需要某项作业时,点击「删除」按钮删除该项作业。删除动作请慎重,需提前查看是否有工作流正在使用该作业,有工作流正在使用的作业无法单独对作业进行删除,需要先暂停工作流再进行删除操作。请通过下载的方式对作业进行备份,以免误删除带来风险。
作业的下载与上传
用户可在界面通过“导出”按钮下载指定作业的配置。该操作适合用户对作业进行备份,迁移等操作时提前导出作业配置。
上传作业配置:可将已有的作业配置,通过点击“上传配置”按钮来上传已有作业配置,完成上传后列表会生成新的作业。
工作流及任务管理
工作流列表
【工作流及任务管理】-【工作流列表】中,用户在工作流列表界面,可查看所有创建的工作流,并对单个/批量工作流进行管理。列表展示的信息有:名称、状态、依赖关系包含的作业、创建时间、更新时间、创建用户。
对具体工作流支持的操作有:
条目 | 内容 |
---|---|
批量操作 | 批量选择-工作流进行导出 |
启动 | 启动单个-工作流 |
修改 | 修改单个-工作流(添加作业、删除作业、更改作业间依赖关系) |
克隆工作流 | 克隆单个-工作流到生产/测试环境 |
删除 | 删除单个/批量-工作流 |
搜索 | 可通过工作流名称、工作流内作业名称、工作流创建的开始/结束时间进行条件搜索 |
上传配置 | 点击「上传配置」选择已有的工作流配置文件,完成配置后,工作流列表会生成一条新的工作流 |
下载配置 | 可通过“导出”按钮下载工作流的配置 |
注:经过上传配置导入的工作流在预览列表中会出现hive/es/ck等数据源名称无法显示问题,不影响流程使用。
新建工作流
【工作流及任务管理】-【新建工作流】中,用户可添加工作流。
建立一条工作流的具体操作如下:
第一步:选择作业
在界面中点击左上角加号,选择作业类型后可模糊查找所需作业,作业名称可不填。点击所需作业的勾选框后,该作业会显示在工作流操作区,如图所示。按照该方法,依次添加所需作业,完成后点击【保存】,在工作流列表中即可见已创建的工作流。
第二步:建立作业依赖关系
点击作业下方的+为作业建立依赖关系,完成后点击【保存】,可在工作流列表中查看已经建立的工作流。
如需要删除作业或清空工作区,可选择对应的按钮完成操作。
任务列表
【工作流及任务管理】-【任务列表】中,列表展示用户当前的任务信息,任务信息为每条作业的每一次执行记录,包含调度时间、作业名称、执行时间、状态、耗时、操作。
用户可查看系统内所有任务列表,同时可使用搜索作业名称、任务状态、调度开始时间-调度结束时间的组合方式来查找相关任务,过滤出符合条件的记录。
注:如任务详细表中有多条记录,说明用户设置了作业失败后的重试次数,当作业失败后,对作业进行了多次运行的尝试。
在任务管理界面,用户可以对某一条任务进行重新执行的操作,无论任务是否执行成功,根据需要都可以采取重试操作。系统支持用户进行单一任务重试或者批量任务重试。
系统提供两种标记:成功和失败,用户可以对选中需要标记的任务进行勾选,对任务状态进行批量标记。
点击具体任务调度时间,可查看任务历史运行结果。
任务全景
【工作流及任务管理】-【任务全景】中,用户可以看到当前所有任务,动态查看任务全景,包括:数据源、启动作业、延迟作业、挂起作业即这些作业间的依赖关系。用户可通过鼠标定位,对单个作业或多个作业链路进行高亮显示。
用户可以通过全局查询查看作业的上下游依赖关系。通常用作业状态概览来查看历史、现在的工作流、作业运行状态。查看正在运行的作业还需多久完成,即将进入队列的作业,还需要等待多久,预估需要多久完成。
数据资源
Hive数据导入
【数据资源】-【Hive数据导入】中,用户可以上传一个CSV或者Excel文件,一次性将数据导入Hive DB 当中,并允许用户指定目标数据库以及对应的表,可以选择导入模式为“追加”或者“覆盖”。同时可以选择是否对上传的数据进行分区的操作。此处新建的数据库及表与3.4.2中的Hive作业相关联。
Hive数据保留策略
【数据资源】-【数据保留策略】中,界面列表展示当前数据表的相关信息,包含所属数据库、保留数据时长、操作。
用户可以搜索查询数据保留策略,并进行管理,可重新配置或删除,还可通过创建新的策略来自定义数据保留周期,点击【+添加策略】进行添加。
个性化配置
仅限管理员权限用户可查看及编辑
管理员可对系统的网页信息进行修改调整。