"一、 Docker 和集算器结合 1. Docker 和集算器结合概述将集算器的群集和 docker 结合可以进行高效的运算、合理的资源分配与管理。结合以后结构分成两部分：Server 端和 .."

raqsoft 北京
乾学院 25 号会员
1,172 浏览 • 5 年前

Docker 管理员操作使用说明

计算＆AI

一、Docker 和集算器结合

1. Docker 和集算器结合概述

将集算器的群集和 docker 结合可以进行高效的运算、合理的资源分配与管理。结合以后结构分成两部分：Server 端和 Client 端；Docker Server 端目前只能在 Linux 中使用。

2. Docker 端口

我们需要了解的是 Docker 管理涉及到三个端口：通信端口、映射外部端口和映射内部端口。其中，dockerManager 与 dockerServer 之间通过通信端口相互通信；Docker 通过映射外部端口来访问 esprocs 服务；esprocs 服务使用的是映射内部端口。

3. 两个对应关系

1) Docker 机与集算器群集的节点机为一一对应关系, 通过主机与端口来区分，docker 映射内外端口相同，因此在同一台物理机上，用户使用的端口要求是没有被占用而且还是唯一的。Docker 在 Server 端的使用分为一台物理机和多台物理机，我们简单的把 ip:port 和 docker 理解为 1:1 的对应关系。

2) Server 端分为 dockerManager 与 dockerServer。dockerManager 管理网络连接，是网络的入口，负责用户的登陆检验、其它关联 docker 机的管理（启动、关闭）、用户配置信息复制到 docker 中。 dockerServer 不直接与 client 端通信, 只与 dockerManger 通信，它只负责 docker 的启动与关闭，由 dockerManager 管理，dockerServer 与 dockerManager 是 n:1 关系。

二、管理员配置 Server 端

在 server 端 docker 管理员要对 docker_user.xml，docker_server.xml，unitServer.xml 及用户使用的资源进行管理与分配设置。

1. 宿主机和 docker 容器目录映射关系

宿主机目录	Dokcer 容器目录	说明
/home/docker/share	/share	全局共享目录
/home/docker/share	/share/jdbc	jdbcjar 文件存放目录
/home/docker/share	/share/extlib	外部库文件存放目录
/opt/app/aaa	/app	用户主目录
/opt/app/aaa/script	/app/script	dfx 脚本存放目录
/opt/app/aaa/data	/app/data	数据存放目录
/opt/app/aaa/config	/app/config	配置文件存放目录

2. 启动脚本自动拷贝配置文件

管理员配置宿主机集算器 esProc/config 目录下的两个文件：

raqsoftConfig.xml 【集算器配置文件】

unitServer.xml 【分配 ip:port 资源的群集配置文件】

docker 启动脚本在 docker 容器中执行如下命令：

cp /app/config/raqsoftConfig.xml ../config
cp /app/config/unitServer.xml ../config

将宿主机 ${home}/config/（对应 docker 容器内 /app/config 目录）下的两个配置文件拷贝到 docker 的集算器配置目录下。

3. 配置 docker_server.xml 服务器管理

docker_server.xml 配置示例：

<?xml version="1.0" encoding="UTF-8"?>
    <Config>
        <Server>192.168.18.155:9001</Server>
        <Share>/root/docker/share</Share>
 	<NodeType>manager</NodeType>
    </Config>

说明：

<Server> 标签：client 端访问 Server 端时的 IP 和端口号，示例如下：

imagepng

<Share> 标签：共享目录。

<NodeType> 标签：属性值为 manager 时，表示此物理机为主服务器。

场景一：一台物理机配置一个或多个 docker

配置 <NodeType> 标签属性值为 manager

场景二：多台物理机配置多个 docker

各个物理机之间要相互通信，所以通信端口 9001（或者为其它端口）要求一致。

主服务器的物理机配置 <NodeType> 标签属性值为 manager

其他物理机无此标签

4. 配置 docker_user.xml 用户管理

docker_user.xml 配置示例：

<?xml version="1.0" encoding="UTF-8"?>
<Users>
    <User>
        <Name>aaa</Name>
 	<Alias>张三</Alias>
 	<Pwd>123456</Pwd>
 	<Memory>500m</Memory>
 	<CPU>512</CPU>
 	<Home>/opt/app/aaa</Home>
 	<Unit>192.168.18.155:8281</Unit>  
    </User>
    <User>
 	<Name>bbb</Name>
 	<Alias>李四</Alias>
 	<Pwd>123456</Pwd>
 	<Memory>100m</Memory>
 	<CPU>256</CPU>
 	<Home>/opt/app/bbb</Home>
 	<Unit>192.168.18.156:8282,192.168.18.156:8283</Unit>
    </User>
    ……
</Users>

说明：

<Name> 标签：Client 端访问 Server 端时的用户名，要求是唯一的，最好是英文，docker 使用时，不允许同名的用户名同时使用。

<Pwd> 标签：Client 端访问 Server 端时的密码。

<Alias> 标签：用户名别名，方便用户区分记忆。

<Memory> 标签：设置 docker 内存，最小值为 4M, 需在参数后面加上单位 m。

<Home> 标签：设置用户在宿主机上存储的位置, 要求可读写, 它下面分 config，script，data 三个子目录，分别对应存放配置文件、dfx 文件及数据文件。

<Unit> 标签：docker 映射（内外）端口，即为用户分配的节点机，要求 ip:port 是唯一的，防止资源上的冲突。每个 ip:port 对应一个 docker 容器，可分配给用户一个或多个 docker 容器。

场景一：一台物理机配置一个或多个 docker

<Unit>192.168.18.155:8281,192.168.18.155:8282</Unit>

场景二：多台物理机配置多个 docker

<Users>
    <User>
        <Unit>192.168.18.155:8281</Unit>
    <User>
    <User>
        <Unit>192.168.18.156:8282,192.168.18.156:8283</Unit>
    <User>
    ……
<Users>

5. 配置集算器在 docker 中使用的集群资源配置文件

unitServer.xml 配置示例：

imagepng

docker 管理员集中统一分配集算器节点访问端口，让 docker 访问端口映射到集算器的端口，这样用户通过 docker 就可以访问集算器了。配置中的 Host ip 用 localhost，每个 Host 分配一个可用且不重复端口。

三、启用 Server 端

1. Java 运行软件包在 server 上的布署

服务端启动程序 server.sh 及其相关的程序目录相对关系如下图：

imagepng

server.sh 中修改参数:

start_home=/home/docker/java

启动 dockerServer 服务:

# /home/docker/java/server.sh

2. 安装 esproc 镜像

进入 esproc 镜像文件 esproc.tar.gz 所在的目录，先解压再导入镜像

tar -zxvf esproc.tar.gz

docker load -i esproc.tar

3. 其他常见命令

（1）终止正在进行的进程

# kill -9 docker_pid

（2）docker 容器日志

docker logs 能够打印出自容器启动以来完整的日志，位置存放 /var/lib/docker/containers

# docker logs [OPTIONS] CONTAINER

Options:

--details 显示更多的信息

-f, --follow 跟踪日志输出，最后一行为当前时间戳的日志

--since string 显示自具体某个时间或时间段的日志

--tail string 从日志末尾显示多少行日志，默认是 all

-t, --timestamps 显示时间戳

（3）docker 管理服务日志

Docker daemon 日志的位置，可以根据不同的系统去查看：

Ubuntu - /var/log/upstart/docker.log

Boot2Docker - /var/log/docker.log

Debian GNU/Linux - /var/log/daemon.log

CentOS - /var/log/daemon.log | grep docker

4. 其他常见问题

（1）docker 端口占用冲突

解决方法：

一，更改端口号；

二，删除冲突的端口号。

删除冲突端口如下：

1) 查看 nat 表所有链的规则：

iptables -t nat -nL –line-number |grep 80（如 80 端口）

Chain DOCKER (2 references)

target prot opt source destination

DNAT tcp – 0.0.0.0/0 0.0.0.0/0 tcp dpt:80 to:172.17.0.2:8080

DNAT tcp – 0.0.0.0/0 0.0.0.0/0 tcp dpt:80 to:172.17.0.9:8080

2) 删除冲突的端口：

iptables -t nat -D DOCKER 2 删除 chain docker 中的第二条规则

（2）Docker 僵尸进程

1) 产生原因：子进程退出，而父进程并没有调用 wait 或 waitpid 获取子进程的状态信息，那么子进程的进程描述符仍然保存在系统中，这种进程称之为僵尸进程。

2) 宿主机上 docker 容器卡死，解决方法：

ps -ef|grep defunct

ps -ef|grep -w ‘Z’ #查找僵尸进程

僵尸进程很难直接 kill 掉，可以试着杀死僵尸进程的父进程：

ps -e -o ppid,stat |grep Z|awk -F " " ‘{print $1}’|xargs kill -9

3) 容器内的僵尸进程

现在有很多人使用 docker，只在容器里面运行一个进程。大多数情况下，这个进程并不会有 init 进程的行为，不会有 init 进程来接管僵尸进程，所以在 docker 启动时添加 init 进程，可以用来接收孤儿进程。

docker run --init your_image_here

（3）dockerServer 失败问题

1) docker 服务失败查看日志

systemctl status docker.service

详细日志

journalctl -xe

重启服务

systemctl daemon-reload

systemctl start docker.service

2) 启动容器失败根据日志查看失败的原因

docker log

（4）docker 没有正常退出

1) 查看容器运行状态和查看日志

docker ps -a

docker logs CONTAINER

可能原因：

docker 容器的主线程（dockfile 中 CMD 执行的命令）结束，容器会退出

建议使用后台模式和 tty 选项

docker run -dit [CONTAINER_NAME or CONTAINER_ID]

Docker 容器在后台以守护态（Daemonized）形式运行，可以通过添加 -d 参数来实现，以下例子容器不会没事干而自杀。

sudo docker run -d ubuntu:14.04 /bin/sh -c “while true; do echo hello world; sleep 1; done”

管理员操作帮助文件：

dockerServer.zip

集算器(489) Docker(2) 配置(1)