跳到主要内容

创建 Hive 数据源

NineData 支持将不同类型、不同环境的数据源添加到控制台中进行统一管理,您可以对已经添加后的数据源使用数据库 DevOps、备份与恢复、数据复制、数据库对比等功能。本文介绍如何将 Hive 源添加到 NineData。

前提条件

  • 已将 NineData 的服务器 IP 地址添加到数据源白名单。服务器 IP 地址的获取方式请参见下图。

    server_ip_address

  • 具备空闲的数据源额度,否则无法录入数据源。您可以在 NineData 控制台页面右上方快速查看剩余配额。check_quota

操作步骤

  1. 登录 NineData 控制台

  2. 在左侧导航栏,单击数据源管理>数据源

  3. 单击**数据源**页签,并单击页面上的**创建数据源**,在弹出的数据源类型弹窗中,选择自建数据库 > (需要添加的数据源类型),在**创建数据源**页面根据下表配置参数。
    提示

    如果您操作失误,可以单击创建数据源页面上方的arrow_down图标重新选择。

  1. 配置数据源的各项参数:

    参数
    说明
    数据源名称输入数据源的名称,为了方便后续查找和管理,请尽量使用有意义的名称。
    连接方式选择数据源的接入方式。支持通过公网地址网关SSH Tunnel 三种方式接入。
    • 公网地址:通过公网地址接入数据源。
    • 网关:NineData 提供的安全快捷的内网访问方式,需先将数据源所在主机接入,接入方式请参见添加网关
    • SSH Tunnel:通过 SSH 隧道接入数据源。
    连接方式选择公网地址的配置项连接地址:数据源的公网连接地址和端口。单击后方的添加 HDFS 连接地址,将显示 HDFS 连接信息区域,您可以在里面填写 HDFS 的连接信息,填写完成后,NineData 和 Hive 之间的数据交互将无需再经过 Hive,大大提升数据交互速率。
    连接方式选择网关的配置项
    • 网关:选择数据源所在主机中安装的 NineData 网关。
    • 连接地址:可以写成 localhost(数据源在本机)或者数据源所在主机的内网 IP。单击后方的添加 HDFS 连接地址,将显示 HDFS 连接信息区域,您可以在里面填写 HDFS 的连接信息,填写完成后,NineData 和 Hive 之间的数据交互将无需再经过 Hive,大大提升数据交互速率。
    连接方式选择 SSH Tunnel 的配置项
    • SSH 主机:输入目标数据源所在服务器的公网 IP 或者域名,以及对应的端口号(SSH 服务的默认端口号为 22)。
    • SSH 认证方式:选择 SSH 的认证方式。
      • 密码认证:通过 SSH 用户名(即服务器的登录名)和密码(即服务器的登录密码)进行连接。
        • SSH 用户名:输入目标数据源所在服务器的登录用户名。
        • 密码:输入目标数据源所在服务器的登录密码。
      • 密钥认证(推荐):通过 SSH 用户名密钥文件进行连接。
        • SSH 用户名:输入目标数据源所在服务器的登录用户名。
        • 密钥文件:单击上传文件上传私钥文件,即无后缀名的密钥文件。如果您还未创建,请参见生成 SSH Tunnel 密钥文件
        • 口令:输入生成密钥文件时设置的密码。如果您在密钥生成过程中未设置密码,此处请留空。
    • 说明:SSH 配置完成后,您需要单击右侧的连接测试,可能出现如下两种结果:
      • 提示连接成功:表示 SSH Tunnel 已打通。
      • 提示错误信息:表示连接失败,您需要根据提错误示排查故障原因并重试。
    • 连接地址:可以写成 localhost(数据源在本机)或者数据源所在主机的内网 IP。单击后方的添加 HDFS 连接地址,将显示 HDFS 连接信息区域,您可以在里面填写 HDFS 的连接信息,填写完成后,NineData 和 Hive 之间的数据交互将无需再经过 Hive,大大提升数据交互速率。
    认证方式选择连接 Hive 的认证方式。
    • 无认证:无认证方式,直接连接。
    • Kerberos:如果 Hive 中开启了 Kerberos 认证,则必须选择该项。选择后,还需要输入用户,上传 krb5.cnf 文件Keytab 文件
    • CUSTOM:HiveServer2 提供的一种自定义认证机制,允许用户通过自定义认证逻辑进行接入。选择该项后,NineData 将在页面中提供账号密码的文本框。
    接入地域NineData 提供账号和密码输入框,便于您将凭据传递给 HiveServer2 进行认证。选择离您数据源所在地最近的地域,可有效降低网络延迟。
    环境根据该数据源的实际业务用途进行选择,作为数据源的环境标识。默认提供生产开发环境,同时支持您创建自定义环境
    说明:在组织模式下,数据库环境还可应用于权限策略管理,例如,默认情况下的生产环境管理员角色仅支持访问生产环境下的数据源,无法访问其他环境的数据源。更多信息,请参见管理角色
  2. 全部配置完成后,单击创建数据源右侧的连接测试可以测试该数据源是否可以正常访问,提示连接成功即可单击创建数据源,完成数据源的添加。否则请重新检查连接设置,直到连接测试成功为止。