当前位置: 首页 > 工具软件 > Apache Atlas > 使用案例 >

Apache Atlas 2.3.0 安装部署

缪修德
2023-12-01

安装前环境准备

  • hadoop 3.1.0
  • hbase 2.3.4
  • hive 3.1.3
  • solr 7.7.3
  • zookeeper 3.5.7
  • kafka
  • 2.11-2.4.1
  • atlas 2.3.0

大数据组件准备

**提示:apache组件历史版本下载地址https://archive.apache.org/dist/组件名字**
**例如:hadoop:https://archive.apache.org/dist/hadoop**

都需要配置环境变量

  1. hadoop安装部署
    • 下载地址

      https://archive.apache.org/dist/hadoop
      
    • 配置
      1. 编辑 hadoop-env.sh,设置JAVA_HOME环境变量
      export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.312.b07-1.el7_9.x86_64/jre,

       2. 编辑hdfs-site.xml文件
        ```
        	<configuration>
        	                <property>
        	                        <name>dfs.replication</name>
        	                        <value>1</value>
        	                </property>
        	                <property>
        	                       <name>dfs.namenode.name.dir</name>
        	                        <value>file:/opt/tool/hadoop-3.1.3/tmp/dfs/name</value>
        	              </property>
        	               <property>
        	                       <name>dfs.datanode.data.dir</name>
        	                       <value>file:/opt/tool/hadoop-3.1.3/tmp/dfs/data</value>
        	              </property>
        	           </configuration>
        	```
           3. 编辑yarn-site.xml文件
            `<configuration>`
                `<property>`
                        `<name>yarn.nodemanager.aux-services</name>`
                        `<value>mapreduce_shuffle</value>`
                `</property>`
            `</configuration>`
      
    • 启动
      cd sbin
      start-dfs.sh
      start-yarn.sh 或者 start-all.sh
  2. zookeeper安装部署
    • 下载地址
      https://archive.apache.org/dist/zookeeper
    • 配置
      1. zoo.example.cfg 改为 zoo.cfg
      2. 在zoo.cfg里配置:dataDir=/opt/tool/apache-zookeeper-3.5.7-bin/data
        logDir=/opt/tool/apache-zookeeper-3.5.7-bin/log
    • 启动
      zkServer.sh start
  3. kafka安装部署
  • 下载地址
    https://archive.apache.org/dist/kafka
  • 配置
    编辑server.properties
    1. listeners=PLAINTEXT://127.0.0.1:9092
    2. broker.id=1
    如果不是本机的zookeeper,还需要配置zookeeper.properties文件
  • 启动
    cd bin
    ./kafka-server-start.sh -daemon ../config/server.properties
  1. hbase安装部署
    • 下载地址
    • 配置
      1. hbase-env.sh文件最后追加 export HBASE_MANAGES_ZK=false // 不使用自己的zookeeper
      2. hbase-site.xml中添加
      <property>
      <name>hbase.cluster.distributed</name>
      <value>true</value>
      </property>
      <property>
      <name>hbase.wal.provider</name>
      <value>filesystem</value>
      </property>
    • 启动
      start-hbase.sh
  2. Solr安装部署
    • 下载地址

    • 配置
      1. 创建系统用户 solr
      sudo useradd solr //增加solr用户
      echo solr | sudo passwd --stdin solr //设置密码为solr
      2. 修改 solr 目录的所有者为 solr 用户
      sudo chown -R solr:solr /opt/module/solr

    • 启动
      注意:启动前需要先启动zookeeper
      sudo -i -u solr /opt/module/solr/bin/solr start
      出现 **Happy Searching! **字样表明启动成功。
      访问 web 页面,默认端口为 8983,http://localhost:8983

  3. hive安装部署
    • 下载地址
    • 配置
      1. hive-site.xml文件 配置mysql信息
      <configuration>
      <property>
      <name>javax.jdo.option.ConnectionURL</name>
      <value>jdbc:mysql://127.0.0.1:3306/hive?createDatabaseIfNotExist=true&amp;characterEncoding=UTF-8&amp;useSSL=false</value>
      </property>
      <property>
      <name>javax.jdo.option.ConnectionDriverName</name>
      <value>com.mysql.jdbc.Driver</value>
      </property>
      <property>
      <name>javax.jdo.option.ConnectionUserName</name>
      <value>root</value>
      </property>
      <property>
      <name>javax.jdo.option.ConnectionPassword</name>
      <value>root</value>
      </property>
      <property>
      <name>hive.exec.post.hooks</name>
      <value>org.apache.atlas.hive.hook.HiveHook</value>
      </property>
      </configuration>
      2. hive-env.sh文件
      export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.312.b07-1.el7_9.x86_64/jre
    • 启动
      schematool -dbType mysql -initSchema 初始化hive到mysql中
      hive --version 先检查hive版本(配置环境变量/etc/profile)
      hive --service metastore &

Atlas集成

1. 源码编译
        `mvn clean -DskipTests package -Pdist`
  2. **Apache Atlas集成HBase**
        *             在atlas-application.properties中配置`atlas.graph.storage.backend=hbase2`
                            `atlas.graph.storage.hbase.table=apache_atlas_janus* `
                            `atlas.graph.storage.hostname=localhost:2181`  这里是zookeeper的地址
                            `atlas.graph.storage.hbase.regions-per-server=1`
                            `atlas.graph.storage.lock.wait-time=10000`
        *             拷贝hbase的配置文件hbase-site.xml到atlas的conf/hbase
        *             修改atlas的环境变量配置信息,添加hbase的配置文件目录 `vi atlas-env.sh`
                            `export HBASE_CONF_DIR=指向上面一步的路径,hbase-site.xml的路径`
3. **Apache Atlas集成Solr**
        *             默认是配置solr cloud,由于实验是单机环境部署,改为http模式:
                            `atlas.graph.index.search.backend=solr`
                            `atlas.graph.index.search.solr.mode=http`
                            `atlas.graph.index.search.solr.http-urls=http://localhost:8983/solr`
        *            将Apache Atlas自带的Solr文件夹拷贝到外部Solr相应目录下,并重命名为atlas_conf
                            `cp -rf solr 目标路径`
                            `全目标路径solr create -c vertex_index -d /atlas_conf `
        *             Solr页面验证
4. **Apache Atlas集成Kafka**
        *           修改Notification Configs
                            `atlas.notification.embedded=false`  使用内置的kafka,默认true,指定false
                            `atlas.kafka.data=/Users/shaozhipeng/Development/pseudo/kafka/kafka-logs`
                            `atlas.kafka.zookeeper.connect=localhost:2181` zookeeper的地址
                            `atlas.kafka.bootstrap.servers=localhost:9092` kafka地址
                            `atlas.kafka.zookeeper.session.timeout.ms=4000`
  5.   **Apache Atlas Server其它配置**
        *          修改Server Properties
                        `atlas.rest.address=http://localhost:21000`
                        `atlas.server.run.setup.on.start=false`
                         `atlas.audit.hbase.tablename=apache_atlas_entity_audit`
                        `atlas.audit.zookeeper.session.timeout.ms=1000`
                        `atlas.audit.hbase.zookeeper.quorum=localhost:2181`
        *          修改atlas-log4j.xml,去掉注释
                        `<appender name="perf_appender" class="org.apache.log4j.DailyRollingFileAppender">`
                        `<logger name="org.apache.atlas.perf" additivity="false">`
                        在文件中搜索这两处 解开注释
6. **Apache Atlas 集成 Hive**
        其主要工作是同步各服务(主要是 Hive)的元数据,并构建元 数据实体之间的关联关系,然后对所存储的元数据建立索引,最终未用户提供数据血缘查看及元数据检索等功能。

​ Atlas 在安装之初,需手动执行一次元数据的全量导入,后续 Atlas 便会利用 Hive Hook 增量同步 Hive 的元数据。
hook-bin/import-hive.sh 这个文件在::distro/target/apache-atlas-2.0.0-hive-hook::
按提示输入用户名:admin;输入密码:admin
Enter username for atlas :- admin
Enter password for atlas :- admin
等待片刻,出现以下日志,即表明导入成功:
::Hive Meta Data import was successful!!!::

      atlas的配置文件atlas-application.properties
     `######### Hive Hook Configs #######`
    `atlas.hook.hive.synchronous=false`
    `atlas.hook.hive.numRetries=3`
    `atlas.hook.hive.queueSize=10000`
    `atlas.cluster.name=primary`
    修改hive的配置文件,hive的目录,不是atlas的
    `<property>
             <name>hive.exec.post.hooks</name>
             <value>org.apache.atlas.hive.hook.HiveHook</value>
    </property>`
7.  **启动Atlas服务**
         `atlas_start.py` 启动服务
         `atlas_stop.py` 停止服务
        看到 `Apache Atlas Server started!!!` 即为启动成功,访问web 21000端口进入管理页面 (可能会有延迟)
        用户名密码:admin/admin
        **注意: 有的时候启动成功了也进不去web页面,请排查每个服务的日志报错**
 类似资料: