华为云用户手册

数据仓库服务 GAUSSDB(DWS)-查看数据倾斜状态:示例

示例对目标表staffs选择合适的分布列。分析表staffs的数据源特征，选择数据重复度低且分布均匀的备选分布列staff_ID、FIRST_NAME和LAST_NAME。先选择staff_ID作为分布列，创建目标表staffs。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 CREATE TABLE staffs ( staff_ID NUMBER(6) not null, FIRST_NAME VARCHAR2(20), LAST_NAME VARCHAR2(25), EMAIL VARCHAR2(25), PHONE_NUMBER VARCHAR2(20), HIRE_DATE DATE, employment_ID VARCHAR2(10), SALARY NUMBER(8,2), COMMISSION_PCT NUMBER(2,2), MANAGER_ID NUMBER(6), section_ID NUMBER(4) ) DISTRIBUTE BY hash(staff_ID); 向目标表staffs中导入部分数据。根据以下查询所得，集群环境中主DN数为8个，则建议导入的记录数为80000条。 1 2 3 4 5 SELECT count(*) FROM pgxc_node where node_type='D'; count ------- 8 (1 row) 校验以staff_ID为分布列的目标表staffs的数据倾斜性。 1 2 3 4 5 6 7 8 9 10 11 12 SELECT a.count,b.node_name FROM (select count(*) as count,xc_node_id FROM staffs GROUP BY xc_node_id) a, pgxc_node b WHERE a.xc_node_id=b.node_id ORDER BY a.count desc; count | node_name ------+----------- 11010 | datanode4 10000 | datanode3 12001 | datanode2 8995 | datanode1 10000 | datanode5 7999 | datanode6 9995 | datanode7 10000 | datanode8 (8 rows) 根据上一步骤查询所得，各DN上数据分布差大于10%，数据分布倾斜。所以从步骤1的备选分布列中删除该列，并删除目标表staffs。 1 DROP TABLE staffs; 尝试选择staff_ID、FIRST_NAME和LAST_NAME的组合作为分布列，创建目标表staffs。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 CREATE TABLE staffs ( staff_ID NUMBER(6) not null, FIRST_NAME VARCHAR2(20), LAST_NAME VARCHAR2(25), EMAIL VARCHAR2(25), PHONE_NUMBER VARCHAR2(20), HIRE_DATE DATE, employment_ID VARCHAR2(10), SALARY NUMBER(8,2), COMMISSION_PCT NUMBER(2,2), MANAGER_ID NUMBER(6), section_ID NUMBER(4) ) DISTRIBUTE BY hash(staff_ID,FIRST_NAME,LAST_NAME); 校验以staff_ID、FIRST_NAME和LAST_NAME的组合为分布列的目标表staffs的数据倾斜性。 1 2 3 4 5 6 7 8 9 10 11 12 SELECT a.count,b.node_name FROM (select count(*) as count,xc_node_id FROM staffs GROUP BY xc_node_id) a, pgxc_node b WHERE a.xc_node_id=b.node_id ORDER BY a.count desc; count | node_name ------+----------- 10010 | datanode4 10000 | datanode3 10001 | datanode2 9995 | datanode1 10000 | datanode5 9999 | datanode6 9995 | datanode7 10000 | datanode8 (8 rows) 根据上一步骤查询所得，各DN上数据分布差小于10%，数据分布均衡，选择的分布列合适。清理已导入小批量数据。 1 TRUNCATE TABLE staffs; 导入全量数据，以完成数据迁移。

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-查看数据倾斜状态:操作步骤

操作步骤分析数据源特征，选择若干个键值重复度小，数据分布比较均匀的备选分布列。从步骤1中选择一个备选分布列创建目标表。 1 2 3 4 5 6 7 8 9 CREATE [ [ GLOBAL | LOCAL ] { TEMPORARY | TEMP } | UNLOGGED ] TABLE [ IF NOT EXISTS ] table_name ({ column_name data_type [ compress_mode ] [ COLLATE collation ] [ column_constraint [ ... ] ] | table_constraint | LIKE source_table [ like_option [...] ] } [, ... ]) [ WITH ( {storage_parameter = value} [, ... ] ) ] [ ON COMMIT { PRESERVE ROWS | DELETE ROWS | DROP } ] [ COMPRESS | NOCOMPRESS ] [ TABLESPACE tablespace_name ] [ DISTRIBUTE BY { REPLICATION | ROUNDROBIN | { HASH ( column_name [,...] ) } } ]; 参照前面章节中的办法向目标表中导入小批量数据。对于单个数据源文件，在导入时，可通过均匀切割，导入部分切割后的数据源文件来验证数据倾斜性。检验数据倾斜性。命令中的table_name ，请填入实际的目标表名。 1 SELECT a.count,b.node_name FROM (SELECT count(*) AS count,xc_node_id FROM table_name GROUP BY xc_node_id) a, pgxc_node b WHERE a.xc_node_id=b.node_id ORDER BY a.count desc; 若各DN上数据分布差小于10%，表明数据分布均衡，选择的分布列合适。请清理已导入小批量数据，导入全量数据，以完成数据迁移。若各DN上数据分布差大于等于10%，表明数据分布倾斜，请从步骤1的备选分布列中删除该列，删除目标表，并重复步骤2 、步骤3 、步骤4 和步骤5。此处的数据分布差表示实际查询到DN上的数据量与DN平均数据量的差异。（可选）如果上述步骤不能选出适合的分布列，需要从备选分布列选择多个列的组合作为分布列来完成数据迁移。

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-查看数据倾斜状态:背景信息

背景信息 GaussDB(DWS)是采用Shared-nothing架构的MPP（Massive Parallel Processor，大规模并发处理）系统，采用水平分布的方式，将业务数据表的元组按合适的分布策略分散存储在所有的DN。当前产品支持复制（Replication）、散列（Hash）和轮询（Roundrobin）三种用户表分布策略。 Replication方式：在每一个DN上存储一份全量表数据。对于数据量比较小的表建议采取Replication分布策略。 Hash方式：采用这种分布方式，需要为用户表指定一个分布列（distribute key）。当插入一条记录时，系统会根据分布列的值进行hash运算后，将数据存储在对应的DN中。对于数据量比较大的表建议采取Hash分布策略。 Roundrobin方式：表的每一行被轮番地发送给各个DN，因此数据会被均匀地分布在各个DN中。对于数据量比较大的表，如果Hash分布找不到一个合适的分布列，建议采用Roundrobin分布策略。

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-PG_TOTAL_SCHEMA_INFO

PG_TOTAL_SCHEMA_INFO PG_TOTAL_SCHEMA_INFO视图显示各个数据库下所有Schema的存储资源使用情况。此视图在参数use_workload_manager为on时才有效。名称类型描述 schemaid oid Schema的OID。 schemaname text Schema名称。 databaseid oid 数据库的OID。 databasename name 数据库名称。 usedspace bigint 该Schema已使用的永久表存储空间大小，单位Byte。 permspace bigint 该Schema的永久表存储空间上限值，单位Byte。父主题：系统视图

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-USER_TAB_COLUMNS

USER_TAB_COLUMNS USER_TAB_COLUMNS视图存储当前用户可访问的表和视图字段信息。名称类型描述 owner character varying(64) 表或视图的所有者。 table_name character varying(64) 表名或视图名。 column_name character varying(64) 列名。 data_type character varying(128) 列的数据类型。 column_id integer 创建表或视图时列的序号。 data_length integer 列的字节长度。 comments text 注释。 avg_col_len numeric 列的平均长度（单位字节）。 nullable bpchar 该列是否允许为空，对于主键约束和非空约束，该值为n。 data_precision integer 数据类型的精度，对于numeric数据类型有效，其他类型为NULL。 data_scale integer 小数点右边的位数，对于numeric数据类型有效，其他类型为0。 char_length numeric 列的长度（以字符计），只对varchar，nvarchar2， bpchar，char类型有效。 schema character varying(64) 包含该表或视图的命名空间。 kind text 当前记录所属的种类，如果此列属于表，则此字段显示为table；如果此列属于视图，则此字段显示为view。父主题：系统视图

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-创建和管理Schema:使用Schema

使用Schema 在特定Schema下创建对象或者访问特定Schema下的对象，需要使用有Schema修饰的对象名。名称包含Schema名以及对象名，之间用“.”号分开。在myschema下创建mytable表。以schema_name.table_name格式创建表。 1 CREATE TABLE myschema.mytable(id int, name varchar(20)); 查询myschema下mytable表的所有数据。 1 2 3 4 SELECT * FROM myschema.mytable; id | name ----+------ (0 rows)

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-创建和管理Schema:查看Schema

查看Schema 使用current_schema()函数查看当前Schema： 1 2 3 4 5 SELECT current_schema(); current_schema ---------------- myschema (1 row) 要查看Schema所有者，请对系统表PG_NAMESPACE和PG_USER执行如下关联查询。语句中的schema_name请替换为实际要查找的Schema名称。 1 SELECT s.nspname,u.usename AS nspowner FROM PG_NAMESPACE s, PG_USER u WHERE nspname='schema_name' AND s.nspowner = u.usesysid; 要查看所有Schema的列表，请查询PG_NAMESPACE系统表。 1 SELECT * FROM PG_NAMESPACE; 要查看属于某Schema下表的列表，请查询系统视图PG_TABLES。例如，以下查询会返回Schema PG_CATALOG中的表列表。 1 SELECT distinct(tablename),schemaname FROM PG_TABLES where schemaname = 'pg_catalog';

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-创建和管理Schema:Schema的权限控制

Schema的权限控制默认情况下，用户只能访问属于自己的Schema中的数据库对象。如需要访问其他Schema的对象，则需赋予对应Schema的usage权限。通过将模式的CREATE权限授予某用户，被授权用户就可以在此模式中创建对象。将myschema的usage权限赋给用户jack。 1 GRANT USAGE ON schema myschema TO jack; 将用户jack对于myschema的usage权限收回。 1 REVOKE USAGE ON schema myschema FROM jack;

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-创建和管理Schema:系统Schema

系统Schema 每个数据库都包含一个pg_catalog schema，它包含系统表和所有内置数据类型、函数、操作符。pg_catalog是搜索路径中的一部分，始终在临时表所属的模式后面，并在search_path中所有模式的前面，即具有第二搜索优先级。这样确保可以搜索到数据库内置对象。如果用户需要使用和系统内置对象重名的自定义对象时，可以在操作自定义对象时带上自己的模式。 information_schema由一个包含数据库中对象信息的视图集合组成。这些视图以一种标准化的方式从系统目录表中得到系统信息。

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-创建和管理Schema:设置Schema搜索路径

设置Schema搜索路径 GUC参数search_path设置Schema的搜索顺序，参数取值形式为采用逗号分隔的Schema名称列表。如果创建对象时未指定目标Schema，则该对象会被添加到搜索路径中列出的第一个Schema中。当不同Schema中存在同名的对象时，查询对象未指定Schema的情况下，将从搜索路径中包含该对象的第一个Schema中返回对象。使用SHOW命令查看当前搜索路径。 1 2 3 4 5 SHOW SEARCH_PATH; search_path ---------------- "$user",public (1 row) search_path参数的默认值为："$user"，public。$user表示与当前会话用户名同名的Schema名，如果这样的模式不存在，$user将被忽略。所以默认情况下，用户连接数据库后，如果数据库下存在同名Schema，则对象会添加到同名Schema下，否则对象被添加到Public Schema下。使用SET命令修改当前会话的默认Schema。例如，将搜索路径设置为myschema、public，首先搜索myschema。 1 SET SEARCH_PATH TO myschema, public; 也可以使用ALTER ROLE命令为特定的角色（用户）设置search_path。例如： 1 ALTER ROLE jack SET search_path TO myschema, public;

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-创建和管理Schema:创建Schema

创建Schema 使用CREATE SCHEMA命令来创建一个新的Schema。 1 CREATE SCHEMA myschema; 如果需要在模式中创建或者访问对象，其完整的对象名称由模式名称和具体的对象名称组成。中间由符号“.”隔开。例如：myschema.table。用户可以创建一个由他人拥有的schema。例如，创建名为myschema的Schema，并指定Schema的所有者为用户jack。 1 CREATE SCHEMA myschema AUTHORIZATION jack; 若不指定authorization username，则其所有者为执行该命令的用户。

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-性能统计:输出性能统计日志

输出性能统计日志参数说明：对每条查询，以下4个选项控制在服务器日志里记录相应模块的性能统计数据，具体含义如下： log_parser_stats控制在服务器日志里记录解析器的性能统计数据。 log_planner_stats控制在服务器日志里记录查询优化器的性能统计数据。 log_executor_stats控制在服务器日志里记录执行器的性能统计数据。 log_statement_stats控制在服务器日志里记录整个语句的性能统计数据。这些参数只能辅助管理员进行粗略分析，类似Linux中的操作系统工具getrusage() 。参数类型：SUSET log_statement_stats记录总的语句统计数据，而其他参数只记录针对每个模块的统计数据。 log_statement_stats不能和其他任何针对每个模块统计的选项一起打开。取值范围：布尔型 on表示开启记录性能统计数据的功能。 off表示关闭记录性能统计数据的功能。默认值：off

数据仓库服务 GAUSSDB(DWS) 运行时统计
数据仓库服务 GAUSSDB(DWS)-其他缺省:dynamic_library_path

dynamic_library_path 参数说明：设置数据查找动态加载的共享库文件的路径。当需要打开一个可以动态装载的模块并且在CREATE FUNCTION或LOAD命令里面声明的名字没有目录部分时，系统将搜索这个目录以查找声明的文件。用于dynamic_library_path的数值必须是一个冒号分隔（Windows下是分号分隔）的绝对路径列表。当一个路径名字以特殊变量$libdir为开头时，会替换为GaussDB(DWS)发布提供的模块安装路径。例如： 1 dynamic_library_path = '/usr/local/lib/postgresql:/opt/testgs/lib:$libdir' 参数类型：SUSET 取值范围：字符串设置为空字符串，表示关闭自动路径搜索。默认值：$libdir

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-PG_STATIO_USER_INDEXES

PG_STATIO_USER_INDEXES PG_STATIO_USER_INDEXES视图显示命名空间中所有用户关系表索引的IO状态信息。表1 PG_STATIO_USER_INDEXES字段名称类型描述 relid oid 索引的表的OID。 indexrelid oid 该索引的OID。 schemaname name 该索引的模式名。 relname name 该索引的表名。 indexrelname name 索引名称。 idx_blks_read bigint 从索引中读取的磁盘块数。 idx_blks_hit bigint 索引命中缓冲区数。父主题：系统视图

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-SQLExecDirect:返回值

返回值 SQL_SUCCESS：表示调用正确。 SQL_SUCCESS_WITH_INFO：表示会有一些警告信息。 SQL_NEED_DATA：在执行SQL语句前没有提供足够的参数。 SQL_ERROR：表示比较严重的错误，如：内存分配失败、建立连接失败等。 SQL_INVALID_HANDLE：表示调用无效句柄。其他API的返回值同理。 SQL_STILL_EXECUTING：表示语句正在执行。 SQL_NO_DATA：表示SQL语句不返回结果集。

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-使用gs_restore命令导入数据:操作场景

操作场景 gs_restore是GaussDB(DWS)提供的与gs_dump配套的导入工具。通过该工具，可将gs_dump导出的文件导入至数据库。gs_restore支持导入的文件格式包含自定义归档格式、目录归档格式和tar归档格式。 gs_restore具备如下两种功能。导入至数据库如果指定了数据库，则数据将被导入到指定的数据库中。其中，并行导入必须指定连接数据库的密码。导入至脚本文件如果未指定导入数据库，则创建包含重建数据库所需的SQL语句脚本，并将其写入至文件或者标准输出。该脚本文件等效于gs_dump导出的纯文本格式文件。 gs_restore工具在导入时，允许用户选择需要导入的内容，并支持在数据导入前对等待导入的内容进行排序。

数据仓库服务 GAUSSDB(DWS) 元数据迁移
数据仓库服务 GAUSSDB(DWS)-使用gs_restore命令导入数据:示例

示例示例一：执行gs_restore，导入指定MPPDB_backup.dmp文件（自定义归档格式）中postgres数据库的数据和对象定义。 gs_restore -W Passwd@123 backup/MPPDB_backup.dmp -p 8000 -h 10.10.10.100 -d backupdb gs_restore[2017-07-21 19:16:26]: restore operation successfu gs_restore: total time: 13053 ms 示例二：执行gs_restore，导入指定MPPDB_backup.tar文件（tar归档格式）中postgres数据库的数据和对象定义。 gs_restore backup/MPPDB_backup.tar -p 8000 -h 10.10.10.100 -d backupdb gs_restore[2017-07-21 19:21:32]: restore operation successful gs_restore[2017-07-21 19:21:32]: total time: 21203 ms 示例三：执行gs_restore，导入指定MPPDB_backup目录文件（目录归档格式）中postgres数据库的数据和对象定义。 gs_restore backup/MPPDB_backup -p 8000 -h 10.10.10.100 -d backupdb gs_restore[2017-07-21 19:26:46]: restore operation successful gs_restore[2017-07-21 19:26:46]: total time: 21003 ms 示例四：执行gs_restore，将postgres数据库的所有对象的定义导入至backupdb数据库。导入前，postgres存在完整的定义和数据，导入后，backupdb数据库只存在所有对象定义，表没有数据。 gs_restore -W Passwd@123 /home//backup/MPPDB_backup.tar -p 8000 -h 10.10.10.100 -d backupdb -s -e -c gs_restore[2017-07-21 19:46:27]: restore operation successful gs_restore[2017-07-21 19:46:27]: total time: 32993 ms 示例五：执行gs_restore，导入MPPDB_backup.dmp文件中PUBLIC模式的所有定义和数据。在导入时会先删除已经存在的对象，如果原对象存在跨模式的依赖则需手工强制干预。 gs_restore backup/MPPDB_backup.dmp -p 8000 -h 10.10.10.100 -d backupdb -e -c -n PUBLIC gs_restore: [archiver (db)] Error while PROCESSING TOC: gs_restore: [archiver (db)] Error from TOC entry 313; 1259 337399 TABLE table1 gaussdba gs_restore: [archiver (db)] could not execute query: ERROR: cannot drop table table1 because other objects depend on it DETAIL: view t1.v1 depends on table table1 HINT: Use DROP ... CASCADE to drop the dependent objects too. Command was: DROP TABLE public.table1; 手工删除依赖，导入完成后再重新创建。 gs_restore backup/MPPDB_backup.dmp -p 8000 -h 10.10.10.100 -d backupdb -e -c -n PUBLIC gs_restore[2017-07-21 19:52:26]: restore operation successful gs_restore[2017-07-21 19:52:26]: total time: 2203 ms 示例六：执行gs_restore，导入MPPDB_backup.dmp文件中PUBLIC模式下表hr.staffs的定义。在导入之前，hr.staffs表不存在。 gs_restore backup/MPPDB_backup.dmp -p 8000 -h 10.10.10.100 -d backupdb -e -c -s -n PUBLIC -t hr.staffs gs_restore[2017-07-21 19:56:29]: restore operation successful gs_restore[2017-07-21 19:56:29]: total time: 21000 ms 示例七：执行gs_restore，导入MPPDB_backup.dmp文件中PUBLIC模式下表hr.staffs的数据。在导入之前，hr.staffs表不存在数据。 gs_restore backup/MPPDB_backup.dmp -p 8000 -h 10.10.10.100 -d backupdb -e -a -n PUBLIC -t hr.staffs gs_restore[2017-07-21 20:12:32]: restore operation successful gs_restore[2017-07-21 20:12:32]: total time: 20203 ms 示例八：执行gs_restore，导入指定表hr.staffs的定义。在导入之前，hr.staffs表的数据是存在的。 human_resource=# select * from hr.staffs; staff_id | first_name | last_name | email | phone_number | hire_date | employment_id | salary | commission_pct | manager_id | section_id ----------+-------------+-------------+----------+--------------------+---------------------+---------------+----------+----------------+------------+------------ 200 | Jennifer | Whalen | JWHALEN | 515.123.4444 | 1987-09-17 00:00:00 | AD_ASST | 4400.00 | | 101 | 10 201 | Michael | Hartstein | MHARTSTE | 515.123.5555 | 1996-02-17 00:00:00 | MK_MAN | 13000.00 | | 100 | 20 gsql -d human_resource -p 8000 gsql ((GaussDB 8.2.0 build 39137c2d) compiled at 2022-09-23 15:43:11 commit 3629 last mr 5138 release) Non-SSL connection (SSL connection is recommended when requiring high-security) Type "help" for help. human_resource=# drop table hr.staffs CASCADE; NOTICE: drop cascades to view hr.staff_details_view gs_restore -W Passwd@123 /home//backup/MPPDB_backup.tar -p 8000 -h 10.10.10.100-d human_resource -n hr -t staffs -s -e restore operation successful total time: 904 ms human_resource=# select * from hr.staffs; staff_id | first_name | last_name | email | phone_number | hire_date | employment_id | salary | commission_pct | manager_id | section_id ----------+------------+-----------+-------+--------------+-----------+---------------+--------+----------------+------------+------------ (0 rows) 示例九：执行gs_restore，导入staffs和areas两个指定表的定义和数据。在导入之前，staffs和areas表不存在。 human_resource=# \d List of relations Schema | Name | Type | Owner | Storage --------+--------------------+-------+----------+---------------------------------- hr | employment_history | table | | {orientation=row,compression=no} hr | employments | table | | {orientation=row,compression=no} hr | places | table | | {orientation=row,compression=no} hr | sections | table | | {orientation=row,compression=no} hr | states | table | | {orientation=row,compression=no} (5 rows) gs_restore -W Passwd@123 /home/mppdb/backup/MPPDB_backup.tar -p 8000 -h 10.10.10.100 -d human_resource -n hr -t staffs -n hr -t areas restore operation successful total time: 724 ms human_resource=# \d List of relations Schema | Name | Type | Owner | Storage --------+--------------------+-------+----------+---------------------------------- hr | areas | table | | {orientation=row,compression=no} hr | employment_history | table | | {orientation=row,compression=no} hr | employments | table | | {orientation=row,compression=no} hr | places | table | | {orientation=row,compression=no} hr | sections | table | | {orientation=row,compression=no} hr | staffs | table | | {orientation=row,compression=no} hr | states | table | | {orientation=row,compression=no} (7 rows) human_resource=# select * from hr.areas; area_id | area_name ---------+------------------------ 4 | Iron 1 | Wood 2 | Lake 3 | Desert (4 rows) 示例十：执行gs_restore，导入hr的模式，包含模式下的所有对象定义和数据。 gs_restore -W Passwd@123 /home//backup/MPPDB_backup1.sql -p 8000 -h 10.10.10.100 -d backupdb -n hr -e -c restore operation successful total time: 702 ms 示例十一：执行gs_restore，同时导入hr和hr1两个模式，仅导入模式下的所有对象定义。 gs_restore -W Passwd@123 /home//backup/MPPDB_backup2.dmp -p 8000 -h 10.10.10.100 -d backupdb -n hr -n hr1 -s restore operation successful total time: 665 ms 示例十二：执行gs_restore，将human_resource数据库导出文件进行解密并导入至backupdb数据库中。 create database backupdb; gs_restore /home//backup/MPPDB_backup.tar -p 8000 -h 10.10.10.100 -d backupdb --with-key=1234567812345678 restore operation successful total time: 23472 ms gsql -d backupdb -p 8000 -r gsql ((GaussDB 8.2.0 build 39137c2d) compiled at 2022-09-23 15:43:11 commit 3629 last mr 5138 release) Non-SSL connection (SSL connection is recommended when requiring high-security) Type "help" for help. backupdb=# select * from hr.areas; area_id | area_name ---------+------------------------ 4 | Iron 1 | Wood 2 | Lake 3 | Desert (4 rows) 示例十三：用户user1不具备将导出文件中数据导入至数据库backupdb的权限，而角色role1具备该权限，要实现将文件数据导入数据库backupdb，可以在导出命令中设置--role角色为role1，使用role1的权限，完成导出目的。 human_resource=# CREATE USER user1 IDENTIFIED BY 'password'; gs_restore -U user1 -W 1234@abc /home//backup/MPPDB_backup.tar -p 8000 -h 10.10.10.100 -d backupdb --role role1 --rolepassword password restore operation successful total time: 554 ms gsql -d backupdb -p 8000 -r gsql ((GaussDB 8.2.0 build 39137c2d) compiled at 2022-09-23 15:43:11 commit 3629 last mr 5138 release) Non-SSL connection (SSL connection is recommended when requiring high-security) Type "help" for help. backupdb=# select * from hr.areas; area_id | area_name ---------+------------------------ 4 | Iron 1 | Wood 2 | Lake 3 | Desert (4 rows)

数据仓库服务 GAUSSDB(DWS) 元数据迁移
数据仓库服务 GAUSSDB(DWS)-PG_TS_TEMPLATE

PG_TS_TEMPLATE PG_TS_TEMPLATE系统表包含定义文本搜索模板的项。模板是文本搜索字典的类的实现框架。因为模板必须通过C语言级别的函数实现，索引新模板的创建必须由数据库系统管理员创建。表1 PG_TS_TEMPLATE字段名字类型引用描述 oid oid - 行标识符（隐藏属性，必须明确选择才会显示）。 tmplname name - 文本搜索模板名。 tmplnamespace oid PG_NAMESPACE.oid 模板所属的命名空间的OID。 tmplinit regproc PG_PROC.oid 模板的初始化函数的OID。 tmpllexize regproc PG_PROC.oid 模板的lexize函数的OID。父主题：系统表

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-SQLSetStmtAttr:参数

参数表1 SQLSetStmtAttr参数关键字参数说明 StatementtHandle 语句句柄。 Attribute 需设置的属性。 ValuePtr 指向对应Attribute的值。依赖于Attribute的值，ValuePtr可能是32位无符号整型值，或指向以空结束的字符串，二进制缓冲区，或者驱动定义值。注意，如果ValuePtr参数是驱动程序指定值。ValuePtr可能是有符号的整数。 StringLength 如果ValuePtr指向字符串或二进制缓冲区，这个参数是*ValuePtr长度，如果ValuePtr指向整型，忽略StringLength。

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-SQLSetStmtAttr:原型

原型 1 2 3 4 SQLRETURN SQLSetStmtAttr(SQLHSTMT StatementHandle SQLINTEGER Attribute, SQLPOINTER ValuePtr, SQLINTEGER StringLength);

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-DBA_TAB_PARTITIONS

DBA_TAB_PARTITIONS DBA_TAB_PARTITIONS视图提供数据库中所有分区的信息。名称类型描述 table_owner character varying(64) 分区所在表的所有者。 schema character varying(64) 分区表模式。 table_name character varying(64) 表名。 partition_name character varying(64) 分区的名称。 high_value text 范围分区的上边界，或列表分区的边界值集合。前向兼容的保留字段，8.1.3集群版本新增pretty_high_value用于记录此信息。 pretty_high_value text 范围分区的上边界，或列表分区的边界值集合。查询结果为表分区对应边界表达式的即时反编译输出。该字段的输出比high_value的信息更详细，根据实际使用场景可输出collaton、字段数据类型等信息。 tablespace_name name 分区所在表空间的名称。父主题：系统视图

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-创建OBS外表:示例

示例在GaussDB(DWS)数据库中，创建一个外表。参数信息如下所示：数据格式参数访问密钥（AK和SK）用户获取OBS访问协议对应的AK值（access_key）。用户获取OBS访问协议对应的SK值（secret_access_key）。请根据用户实际获取的access_key和secret_access_key的密钥替换示例中的对应内容。设置数据格式参数数据源文件格式（format）为CSV。编码格式（encoding）为UTF-8。是否使用加密（encrypt），默认为 'off'。字段分隔符（delimiter）为','。引号字符（quote）使用默认值双引号。 null（数据文件中空值的表示）为“一个没有引号的空字符串”。 header（指定导出数据文件是否包含标题行）为false，当数据文件第一行不是标题行（即表头），不需要设置。 OBS导出数据时不支持该参数为true，使用缺省值false。设置导入时的容错性参数 PER NODE REJECT LIMIT 'value' 为unlimited，即接受导入过程中所有数据格式错误。 LOG INTO error_table_name指定为product_info_err，将数据导入过程中出现的数据格式错误信息写入表product_info_err。 fill_missing_fields为true，即当数据加载时，若数据源文件中一行数据的最后一个字段缺失，则把最后一个字段的值设置为NULL，不报错。 ignore_extra_data为true，当数据加载时，若数据源文件比外表定义列数多，则忽略行尾多出来的列，不报错。根据以上信息，创建的外表如下所示：认证用的AK和SK硬编码到代码中或者明文存储都有很大的安全风险，建议在配置文件或者环境变量中密文存放，使用时解密，确保安全。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 DROP FOREIGN TABLE product_info_ext; CREATE FOREIGN TABLE product_info_ext ( product_price integer not null, product_id char(30) not null, product_time date , product_level char(10) , product_name varchar(200) , product_type1 varchar(20) , product_type2 char(10) , product_monthly_sales_cnt integer , product_comment_time date , product_comment_num integer , product_comment_content varchar(200) ) SERVER gsmpp_server OPTIONS( LOCATION 'gsobs://mybucket/input_data/product_info | gsobs://mybucket02/input_data/product_info', FORMAT 'CSV' , DELIMITER ',', encoding 'utf8', header 'false', ACCESS_KEY 'access_key_value_to_be_replaced', SECRET_ACCESS_KEY 'secret_access_key_value_to_be_replaced', fill_missing_fields 'true', ignore_extra_data 'true' ) READ ONLY LOG INTO product_info_err PER NODE REJECT LIMIT 'unlimited'; 返回如下信息表示创建成功： CREATE FOREIGN TABLE

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-创建OBS外表:操作步骤

操作步骤根据上传数据到OBS中规划的路径，由此确定创建外表时使用的参数loaction的值。用户获取OBS访问协议对应的AK值和SK值。获取访问密钥，请登录管理控制台，单击右上角的用户名并选择菜单“我的凭证”，然后在左侧导航树单击“访问密钥”。在访问密钥页面，可以查看已有的访问密钥ID（即AK），如果要同时获取AK和SK，可以单击“新增访问密钥”创建并下载访问密钥。梳理待导入数据的格式信息，确定创建外表时使用的数据格式参数的值。需要收集的主要数据源格式信息如下： format：外表中数据源文件的格式。OBS外表导入支持CSV、TEXT格式。缺省值为TEXT。 header：指定导出数据文件是否包含标题行，header只能用于CSV格式的文件中。 delimiter：指定数据文件行数据的字段分隔符，不指定则使用默认分隔符。外表可以识别的更多参数，详细使用请参见数据格式参数。规划并行导入容错性，以控制导入过程中处理错误的方式。 fill_missing_fields：数据入库时，数据源文件中某行的最后一个字段缺失时，请选择是直接将字段设为Null，还是在错误表中报错提示。取值范围：true/on，false/off。参数为true/on，当数据导入时，若数据源文件中一行数据的最后一个字段缺失，则把最后一个字段的值设置为NULL，不报错。参数为false/off，如果最后一个字段缺失会显示如下错误信息。 missing data for column "tt" 缺省值：false/off。 ignore_extra_data：数据源文件中的字段比外表定义列数多时，请选择是忽略多出的列，还是在错误表中报错提示。取值范围：true/on、false/off。参数为true/on，若数据源文件比外表定义列数多，则忽略行尾多出来的列。参数为false/off，若数据源文件比外表定义列数多，会显示如下错误信息。 1 extra data after last expected column 缺省值：false/off。 per node reject limit：本次数据导入过程中每个DN实例上允许出现的数据格式错误的数量。如果有一个DN实例上录入错误表中的错误数量超过设定值时，本次导入失败，报错退出。可以选择不做限制，也可以根据所能容忍的错误数量选择一个上限值。 compatible_illegal_chars：导入时遇到非法字符，选择如何处理。是将非法字符按照转换规则转换后入库，还是报错中止导入。取值范围：true/on，false/off。参数为true/on，则导入时遇到非法字符进行容错处理，非法字符转换后入库，不报错，不中断导入。参数为false/off，导入时遇到非法字符进行报错，中断导入。缺省值：false/off。非法字符容错转换规则如下：对于'\0'，容错后转换为空格。对于其他非法字符，容错后转换为问号。对非法字符进行容错转换时，如遇NULL、DELIMITER、QUOTE、ESCAPE也设置成了空格或问号，GaussDB(DWS)会通过如"illegal chars conversion may confuse COPY escape 0x20"等报错信息提示用户修改可能引起混淆的参数以避免导入错误。 error_table_name：用于记录数据格式错误信息的错误表表名。并行导入结束后查询此错误信息表，能够获取详细的错误信息。更多参数，详细使用请参见容错性参数。根据前面步骤确定的参数，创建OBS外表。外表的创建语法以及详细使用，请参考CREATE FOREIGN TABLE (OBS导入导出)。

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-清除资源:删除手动创建的外部服务器

删除手动创建的外部服务器如果执行了手动创建外部服务器，请按照以下步骤删除外部服务器、数据库和用户。使用创建外部服务器的用户通过GaussDB(DWS)提供的数据库客户端连接到外部服务器所在的数据库。例如，使用gsql客户端的用户可以通过以下两种方法中的一种进行连接：如果已经登录了gsql客户端，可以执行以下命令进行切换： 1 \c mydatabase dbuser; 根据提示输入密码。如果已经登录了gsql客户端，您也可以执行\q退出gsql后，再执行以下命令重新进行连接： 1 gsql -d mydatabase -h 192.168.2.30 -U dbuser -p 8000 -r 根据提示输入密码。删除手动创建的外部服务器。执行以下命令进行删除，详细语法请参见DROP SERVER： 1 DROP SERVER hdfs_server_8f79ada0_d998_4026_9020_80d6de2692ca; 返回以下信息表示删除成功： 1 DROP SERVER 查看外部服务器： 1 SELECT * FROM pg_foreign_server WHERE srvname='hdfs_server_8f79ada0_d998_4026_9020_80d6de2692ca'; 返回结果如下所示，表示已经删除成功： 1 2 3 srvname | srvowner | srvfdw | srvtype | srvversion | srvacl | srvoptions ---------+----------+--------+---------+------------+--------+------------ (0 rows) 删除自定义数据库。通过GaussDB(DWS)提供的数据库客户端连接默认数据库postgres。如果已经登录了gsql客户端，可以直接执行如下命令进行切换： 1 \c postgres 根据界面提示输入密码。执行以下命令，删除自定义数据库： 1 DROP DATABASE mydatabase; 返回以下信息表示删除成功： 1 DROP DATABASE 使用管理员用户，删除本示例中创建的普通用户。使用数据库管理员用户通过GaussDB(DWS)提供的数据库客户端连接数据库。如果已经登录了gsql客户端，可以直接执行如下命令进行切换： 1 \c postgres dbadmin 执行以下命令回收创建外部服务器的权限： 1 REVOKE ALL ON FOREIGN DATA WRAPPER hdfs_fdw FROM dbuser; 其中FOREIGN DATA WRAPPER的名字只能是hdfs_fdw，dbuser为创建SERVER的用户名。执行以下命令删除用户： 1 DROP USER dbuser; 可使用\du命令查询用户，确认用户是否已经删除。

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-PG_STATIO_SYS_INDEXES

PG_STATIO_SYS_INDEXES PG_STATIO_SYS_INDEXES视图显示命名空间中所有系统表索引的IO状态信息。表1 PG_STATIO_SYS_INDEXES字段名称类型描述 relid oid 此索引表的OID。 indexrelid oid 索引的OID。 schemaname name 索引的模式名。 relname name 索引的表名。 indexrelname name 索引名。 idx_blks_read bigint 从索引中读取的磁盘块数。 idx_blks_hit bigint 索引缓冲区命中数量。父主题：系统视图

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-创建GDS外表:操作步骤

操作步骤收集数据源格式信息、GDS服务的访问信息。需要收集的主要数据源格式信息如下： format：GDS外表导入支持CSV、TEXT和FIXED格式。请确认存放在数据服务器上待入库数据的格式。例如，假设待入库的数据为CSV格式。 header（仅支持CSV，FIXED格式）：确认数据文件是否包含标题行。 delimiter：确认数据文件中，字段间的分隔符。例如，假设是以英文逗号分隔的。 encoding：数据源文件的数据编码格式。例如，假设为UTF-8。 eol：确认数据文件中，行间的换行符。例如，默认的换行符，如0x0D0A、0X0A，或者自定义的换行符，如字符串!@#。该参数仅支持TEXT格式导入。外表可识别的其他更多格式信息请参见数据格式参数。需要收集的GDS服务的访问信息如下： location：GDS服务的访问地址。例如以安装配置和启动GDS中的GDS信息为例。非SSL模式下的location为：gsfs://192.168.0.90:5000//input_data/ 。SSL模式下的location为：gsfss://192.168.0.90:5000//input_data/ 。其中，“192.168.0.90:5000”为GDS服务的IP及端口号；“input_data”为GDS服务管理的数据源文件所在的路径。请根据实际情况替换。依据数据源文件中的数据情况，设计导入容错机制。 GaussDB(DWS)支持如下的数据容错性处理，相当于数据入库前对数据做初步的简单清洗。 fill_missing_fields：数据入库时，数据源文件中某行的最后一个字段缺失时，请选择是直接将字段设为Null，还是在错误表中报错提示。取值范围：true/on，false/off。参数为true/on，当数据导入时，若数据源文件中一行数据的最后一个字段缺失，则把最后一个字段的值设置为NULL，不报错。参数为false/off，如果最后一个字段缺失会显示如下错误信息。 missing data for column "tt" 缺省值：false/off。 ignore_extra_data：数据源文件中的字段比外表定义列数多时，请选择是忽略多出的列，还是在错误表中报错提示。取值范围：true/on、false/off。参数为true/on，若数据源文件比外表定义列数多，则忽略行尾多出来的列。参数为false/off，若数据源文件比外表定义列数多，会显示如下错误信息。 1 extra data after last expected column 缺省值：false/off。 per node reject_limit：本次数据导入过程中每个DN实例上允许出现的数据格式错误的数量。如果有一个DN实例上录入错误表中的错误数量超过设定值时，本次导入失败，报错退出。可以选择不做限制，也可以根据所能容忍的错误数量选择一个上限值。 compatible_illegal_chars：导入时遇到非法字符，选择如何处理。是将非法字符按照转换规则转换后入库，还是报错中止导入。取值范围：true/on，false/off。参数为true/on，则导入时遇到非法字符进行容错处理，非法字符转换后入库，不报错，不中断导入。参数为false/off，导入时遇到非法字符进行报错，中断导入。缺省值：false/off。非法字符容错转换规则如下：对于'\0'，容错后转换为空格。对于其他非法字符，容错后转换为问号。对非法字符进行容错转换时，如遇NULL、DELIMITER、QUOTE、ESCAPE也设置成了空格或问号，GaussDB(DWS)会通过如"illegal chars conversion may confuse COPY escape 0x20"等报错信息提示用户修改可能引起混淆的参数以避免导入错误。 error_table_name：用于记录数据格式错误信息的错误表表名。并行导入结束后查询此错误信息表，能够获取详细的错误信息。 remote log 'name'：数据导入过程中的数据格式错误信息是否同时在GDS服务器上以文件方式保存。name为错误数据文件的文件名前缀。关于容错性参数的更多信息请参考容错性参数。使用gsql或Data Studio连接数据库后，根据前面步骤所收集和规划的信息参数，创建GDS外表。示例如下： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 CREATE FOREIGN TABLE foreign_tpcds_reasons ( r_reason_sk integer not null, r_reason_id char(16) not null, r_reason_desc char(100) ) SERVER gsmpp_server OPTIONS ( LOCATION 'gsfs://192.168.0.90:5000/* | gsfs://192.168.0.91:5000/*', FORMAT 'CSV' , DELIMITER ',', ENCODING 'utf8', HEADER 'false', FILL_MISSING_FIELDS 'true', IGNORE_EXTRA_DATA 'true' ) LOG INTO product_info_err PER NODE REJECT LIMIT 'unlimited'; 示例中的各项说明如下：外表字段需与数据库中即将存储数据的事实表保持一致。对于GDS导入，SERVER gsmpp_server请保持不变。 location参数请根据1中收集的GDS服务访问信息修改。注意GDS使用SSL加密传输时，需要将“gsfs”替换为“gsfss”。 FORMAT、DELIMITER、ENCODING、HEADER请根据1中收集的数据源格式信息填写。 FILL_MISSING_FIELDS、IGNORE_EXTRA_DATA、LOG INTO及PER NODE REJECT LIMIT请根据2中设计的导入容错机制填写。注意LOG INTO是指将数据格式错误录入哪个错误表，即其取值为错误表表名。 CREATE FOREIGN TABLE语法的更多信息，请参考CREATE FOREIGN TABLE (GDS导入导出)。

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-创建GDS外表:任务示例

任务示例除了以下示例，更多外表创建的示例请参考GDS导入示例。示例1：创建GDS外表foreign_tpcds_reasons，数据格式为CSV。 1 2 3 4 5 6 7 CREATE FOREIGN TABLE foreign_tpcds_reasons ( r_reason_sk integer not null, r_reason_id char(16) not null, r_reason_desc char(100) ) SERVER gsmpp_server OPTIONS (location 'gsfs://192.168.0.90:5000/* | gsfs://192.168.0.91:5000/*', FORMAT 'CSV',MODE 'Normal', ENCODING 'utf8', DELIMITER E'\x08', QUOTE E'\x1b', NULL ''); 示例2：创建GDS导入外表foreign_tpcds_reasons_SSL，使用SSL加密传输的模式传输，数据格式为CSV。 1 2 3 4 5 6 7 CREATE FOREIGN TABLE foreign_tpcds_reasons_SSL ( r_reason_sk integer not null, r_reason_id char(16) not null, r_reason_desc char(100) ) SERVER gsmpp_server OPTIONS (location 'gsfss://192.168.0.90:5000/* | gsfss://192.168.0.91:5000/*', FORMAT 'CSV',MODE 'Normal', ENCODING 'utf8', DELIMITER E'\x08', QUOTE E'\x1b', NULL ''); 示例3：创建GDS外表foreign_tpcds_reasons，数据格式为TEXT。 1 2 3 4 5 6 CREATE FOREIGN TABLE foreign_tpcds_reasons ( r_reason_sk integer not null, r_reason_id char(16) not null, r_reason_desc char(100) ) SERVER gsmpp_server OPTIONS (location 'gsfs://192.168.0.90:5000/* | gsfs://192.168.0.91:5000/*', FORMAT 'TEXT', delimiter E'\x08', null '',reject_limit '2',EOL '0x0D') WITH err_foreign_tpcds_reasons; 示例4：创建GDS外表foreign_tpcds_reasons，数据格式为FIXED。 1 2 3 4 5 6 CREATE FOREIGN TABLE foreign_tpcds_reasons ( r_reason_sk integer position(1,2), r_reason_id char(16) position(3,16), r_reason_desc char(100) position(19,100) ) SERVER gsmpp_server OPTIONS (location 'gsfs://192.168.0.90:5000/*', FORMAT 'FIXED', ENCODING 'utf8',FIX '119');

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-PG_DEPEND:应用示例

应用示例查询名为serial1的数据库对象sequence和哪个表有依赖关系。先通过系统表PG_CLASS查询序列名为serial1的oid。 1 2 3 4 5 SELECT oid FROM pg_class WHERE relname ='serial1'; oid ------- 17815 (1 row) 使用系统表PG_DEPEND根据所查询的序列serial1的oid获取依赖该序列的对象。 1 2 3 4 5 6 SELECT * FROM pg_depend WHERE objid ='17815'; classid | objid | objsubid | refclassid | refobjid | refobjsubid | deptype ---------+-------+----------+------------+----------+-------------+--------- 1259 | 17815 | 0 | 2615 | 2200 | 0 | n 1259 | 17815 | 0 | 1259 | 17812 | 1 | a (2 rows) 根据字段refobjid获取依赖该序列serial1的表的OID，并查询到表名。其结果表示，序列serial1依赖于表customer_address。 1 2 3 4 5 SELECT relname FROM pg_class where oid='17812'; relname ------------------ customer_address (1 row)

数据仓库服务 GAUSSDB(DWS)
数据仓库服务 GAUSSDB(DWS)-创建外表

创建外表当完成创建外部服务器后，在GaussDB(DWS)数据库中创建一个HDFS只写外表，用来访问存储在HDFS上的数据。此外表是只写的，只能用于导出操作。创建外表的语法格式如下，详细的描述请参见CREATE FOREIGN TABLE (SQL on OBS or Hadoop)章节。 1 2 3 4 5 6 7 8 9 10 11 CREATE FOREIGN TABLE [ IF NOT EXISTS ] table_name ( [ { column_name type_name [ { [CONSTRAINT constraint_name] NULL | [CONSTRAINT constraint_name] NOT NULL | column_constraint [...]} ] | table_constraint [, ...]} [, ...] ] ) SERVER dfs_server OPTIONS ( { option_name ' value ' } [, ...] ) [ {WRITE ONLY }] DISTRIBUTE BY {ROUNDROBIN | REPLICATION} [ PARTITION BY ( column_name ) [ AUTOMAPPED ] ] ; 例如，创建一个名为"product_info_ext_obs"的外表，对语法中的参数按如下描述进行设置： table_name 外表的表名。表字段定义 column_name：外表中的字段名。 type_name：字段的数据类型。多个字段用“,”隔开。 SERVER dfs_server 外表的外部服务器名称，这个server必须存在。外表通过设置外部服务器连接OBS/HDFS读取数据。此处应参考创建外部服务器中创建的外部服务器名称填写。 OPTIONS参数用于指定外表数据的各类参数，关键参数如下所示。 “format”：表示导出的数据文件格式，支持“orc”格式。 “foldername”：外表中数据源文件目录，即表数据目录在HDFS文件系统上对应的文件目录。此选项对WRITE ONLY外表为必选项，对READ ONLY外表为可选项。 “encoding”：外表中数据源文件的编码格式名称，缺省为utf8。 “filesize” 指定WRITE ONLY外表的文件大小。此选项为可选项，不指定该选项默认分布式文件系统配置中文件大小的配置值。此语法仅对WRITE ONLY的外表有效。取值范围：[1, 1024]的整数。 filesize参数只对ORC格式的WRITE ONLY的HDFS外表有效。 “compression” 指定ORC格式文件的压缩方式，此选项为可选项。此语法仅对WRITE ONLY的外表有效。取值范围：zlib，snappy，lz4。缺省值为snappy。 “version” 指定ORC格式的版本号，此选项为可选项。此语法仅对WRITE ONLY的外表有效。取值范围：目前仅支持0.12。缺省值为0.12。 “dataencoding” 在数据库编码与数据表的数据编码不一致时，该参数用于指定导出数据表的数据编码。比如数据库编码为Latin-1，而导出的数据表中的数据为UTF-8编码。此选项为可选项，如果不指定该选项，默认采用数据库编码。此语法仅对HDFS的WRITE ONLY外表有效。取值范围：该数据库编码支持转换的数据编码。 dataencoding参数只对ORC格式的WRITE ONLY的HDFS外表有效。语法中的其他参数其他参数均为可选参数，用户可以根据自己的需求进行设置，在本例中不需要设置。详细的描述请参见CREATE FOREIGN TABLE (SQL on Hadoop or OBS)。根据以上信息，创建外表命令如下所示： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 DROP FOREIGN TABLE IF EXISTS product_info_ext_obs; ---建立不包含分区列的HDFS外表，表关联的外部服务器为hdfs_server，表对应的HDFS服务上的文件格式为‘orc’，HDFS上的数据存储路径为'/user/hive/warehouse/product_info_orc/'。 CREATE FOREIGN TABLE product_info_ext_obs ( product_price integer , product_id char(30) , product_time date , product_level char(10) , product_name varchar(200) , product_type1 varchar(20) , product_type2 char(10) , product_monthly_sales_cnt integer , product_comment_time date , product_comment_num integer , product_comment_content varchar(200) ) SERVER obs_server OPTIONS ( format 'orc', foldername '/user/hive/warehouse/product_info_orc/', compression 'snappy', version '0.12' ) Write Only; 父主题：导出ORC数据到MRS

数据仓库服务 GAUSSDB(DWS) 导出ORC数据到MRS
数据仓库服务 GAUSSDB(DWS)-记录日志的时间:log_min_duration_statement

log_min_duration_statement 参数说明：当某条语句的持续时间大于或者等于特定的毫秒数时，log_min_duration_statement参数用于控制记录每条完成语句的持续时间。设置log_min_duration_statement可以很方便地跟踪需要优化的查询语句。对于使用扩展查询协议的客户端，语法分析、绑定、执行每一步所花时间被独立记录。参数类型：SUSET 当此选项与log_statement同时使用时，已经被log_statement记录的语句文本不会被重复记录。在没有使用syslog情况下，推荐使用log_line_prefix记录PID或会话ID，方便将当前语句消息连接到最后的持续时间消息。取值范围：整型，-1 ~ INT_MAX，单位为毫秒。设置为250，所有运行时间不短于250ms的SQL语句都会被记录。设置为0，输出所有语句的持续时间。设置为-1，关闭此功能。默认值：30min

数据仓库服务 GAUSSDB(DWS)

共100000条

undefined

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

华为云用户手册

7*24

备案

专业服务

退订

建议反馈

售前咨询热线