Docker部署Elasticsearch和入门整合Spring Boot

包括使用docker部署ES，es入门的基础概念和基础框架，以及Java Spring Boot整合es，基础使用JavaRestClient操作索引库和文档
本Elasticsearch快速入门Java版笔记是在某站黑xx马公开资料上再修改和总结整理。

文章目录

- - Elasticsearch数据库
  - - 安装ES
    - 部署可视化界面kibana
    - 分词器
    - mapping映射属性
    - 索引库操作
    - 文档操作
    - 动态映射
  - 整合Spring Boot
  - - RestClient操作索引库
    - 利用JavaRestClient实现创建、删除索引库，判断索引库是否存在
    - RestClient操作文档
    - - 添加数据到索引库
      - 根据id查询数据
      - 根据id修改数据
      - 根据id删除文档数据
      - 利用JavaRestClient批量导入数据到ES

Elasticsearch数据库

elasticsearch是elastic stack的核心，负责存储、搜索、分析数据。

Kibana：数据可视化

Elasticsearch：存储、计算、搜索数据

Logstash，Beats：数据抓取

什么是文档（document）和词条（term）？
每一条数据就是一个文档
对文档中的内容分词，得到的词语就是词条
什么是正向索引？
基于文档id创建索引。查询词条时必须先找到文档，而后判断是否包含词条
什么是倒排索引？
对文档内容分词，对词条创建索引，并记录词条所在文档的信息。查询时先根据词条查询到文档id，而后获取到文档

倒排索引中包含两部分内容：

词条词典（Term Dictionary）：记录所有词条，以及词条与倒排列表（Posting List）之间的关系，会给词条创索引，提高查询和插入效率

倒排列表（Posting List）：记录词条所在的文档id、词条出现频率、词条在文档中的位置等信息

文档id：用于快速获取文档
词条频率（TF）：文档在词条出现的次数，用于评分

elasticsearch是面向文档存储的，可以是数据库中的一条商品数据，一个订单信息。文档数据会被序列化为json格式后存储在elasticsearch中

Mysql：擅长事务类型操作，可以确保数据的安全和一致性
Elasticsearch：擅长海量数据的搜索、分析、计算

MySQL	Elasticsearch	说明
Table	Index	索引(index)，就是文档的集合，类似数据库的表(table)
Row	Document	文档（Document），就是一条条的数据，类似数据库中的行（Row），文档都是JSON格式
Column	Field	字段（Field），就是JSON文档中的字段，类似数据库中的列（Column）
Schema	Mapping	Mapping（映射）是索引中文档的约束，例如字段类型约束。类似数据库的表结构（Schema）
SQL	DSL	DSL是elasticsearch提供的JSON风格的请求语句，用来操作elasticsearch，实现CRUD

安装ES

docker官网搜索 https://hub.docker/_/elasticsearch

下拉看到官方支持的版本为

部署单点ES

创建网络，因为还需要部署kibana容器（执行DLM语句工具），因此需要让es和kibana容器互联

docker network create es-net

采用elasticsearch的7.17.4版本的镜像，这个镜像体积非常大，接近1G。不建议自己pull。(同理kibana的tar)
(我当时为了减少内存使用，拉了docker官网中官方支持的es版本是 7.17.4 )

# 导入数据
docker load -i es.tar

运行docker命令，部署单点es

docker run -d \
	--name es \
    -e "ES_JAVA_OPTS=-Xms512m -Xmx512m" \
    -e "discovery.type=single-node" \
    -v es-data:/usr/share/elasticsearch/data \
    -v es-plugins:/usr/share/elasticsearch/plugins \
    --privileged \
    --network es-net \
    -p 9200:9200 \
    -p 9300:9300 \
elasticsearch:7.17.4

命令解释：

-e "cluster.name=es-docker-cluster"：设置集群名称
-e "http.host=0.0.0.0"：监听的地址，可以外网访问
-e "ES_JAVA_OPTS=-Xms512m -Xmx512m"：内存大小
-e "discovery.type=single-node"：非集群模式
-v es-data:/usr/share/elasticsearch/data：挂载逻辑卷，绑定es的数据目录
-v es-logs:/usr/share/elasticsearch/logs：挂载逻辑卷，绑定es的日志目录
-v es-plugins:/usr/share/elasticsearch/plugins：挂载逻辑卷，绑定es的插件目录
--privileged：授予逻辑卷访问权
--network es-net ：加入一个名为es-net的网络中
-p 9200:9200：端口映射配置

在浏览器中输入：http://虚拟机ip地址:9200 即可看到elasticsearch的响应结果

部署可视化界面kibana

运行docker命令，部署kibana

docker run -d \
--name kibana \
-e ELASTICSEARCH_HOSTS=http://es:9200 \
--network=es-net \
-p 5601:5601  \
kibana:7.17.4

--network es-net ：加入一个名为es-net的网络中，与elasticsearch在同一个网络中
-e ELASTICSEARCH_HOSTS=http://es:9200"：设置elasticsearch的地址，因为kibana已经与elasticsearch在一个网络，因此可以用容器名直接访问elasticsearch
-p 5601:5601：端口映射配置

kibana启动一般比较慢，需要多等待一会，可以通过命令：

docker logs -f kibana

查看运行日志，当查看到下面的日志，说明成功

在浏览器输入地址访问：http://虚拟机ip地址:5601，即可看到结果

首页

首页

Dev Tools界面

分词器

处理中文分词，一般会使用IK分词器。https://github/medcl/elasticsearch-analysis-ik

安装ik分词器

在线安装

# 进入容器内部
docker exec -it elasticsearch /bin/bash

# 在线下载并安装
./bin/elasticsearch-plugin  install https://github/medcl/elasticsearch-analysis-ik/releases/download/v7.12.1/elasticsearch-analysis-ik-7.12.1.zip

#退出
exit
#重启容器
docker restart elasticsearch

离线安装

查看数据卷目录

docker volume inspect es-plugins

解压安装包，并上传到es容器的插件数据卷中

# 4、重启容器
docker restart es
# 查看es日志
docker logs -f es

集群部署

部署es集群可以直接使用docker-compose来完成，不过要求你的Linux虚拟机至少有4G的内存空间

首先编写一个docker-compose文件，内容如下

version: '2.2'
services:
  es01:
    image: docker.elastic.co/elasticsearch/elasticsearch:7.12.1
    container_name: es01
    environment:
      - node.name=es01
      - cluster.name=es-docker-cluster
      - discovery.seed_hosts=es02,es03
      - cluster.initial_master_nodes=es01,es02,es03
      - bootstrap.memory_lock=true
      - "ES_JAVA_OPTS=-Xms512m -Xmx512m"
    ulimits:
      memlock:
        soft: -1
        hard: -1
    volumes:
      - data01:/usr/share/elasticsearch/data
    ports:
      - 9200:9200
    networks:
      - elastic
  es02:
    image: docker.elastic.co/elasticsearch/elasticsearch:7.17.4
    container_name: es02
    environment:
      - node.name=es02
      - cluster.name=es-docker-cluster
      - discovery.seed_hosts=es01,es03
      - cluster.initial_master_nodes=es01,es02,es03
      - bootstrap.memory_lock=true
      - "ES_JAVA_OPTS=-Xms512m -Xmx512m"
    ulimits:
      memlock:
        soft: -1
        hard: -1
    volumes:
      - data02:/usr/share/elasticsearch/data
    networks:
      - elastic
  es03:
    image: docker.elastic.co/elasticsearch/elasticsearch:7.17.4
    container_name: es03
    environment:
      - node.name=es03
      - cluster.name=es-docker-cluster
      - discovery.seed_hosts=es01,es02
      - cluster.initial_master_nodes=es01,es02,es03
      - bootstrap.memory_lock=true
      - "ES_JAVA_OPTS=-Xms512m -Xmx512m"
    ulimits:
      memlock:
        soft: -1
        hard: -1
    volumes:
      - data03:/usr/share/elasticsearch/data
    networks:
      - elastic

volumes:
  data01:
    driver: local
  data02:
    driver: local
  data03:
    driver: local

networks:
  elastic:
    driver: bridge

Run docker-compose to bring up the cluster:

docker-compose up

分词器的作用是什么？
创建倒排索引时对文档分词
用户搜索时，对输入的内容分词
IK分词器有几种模式？
ik_smart：智能切分，粗粒度
ik_max_word：最细切分，细粒度
拓展字典

要拓展ik分词器的词库，只需要修改一个ik分词器目录中的config目录中的IkAnalyzer.cfg.xml文件
然后在名为ext.dic的文件中，添加想要拓展的词语即可

停用字典

要禁用某些敏感词条，只需要修改一个ik分词器目录中的config目录中的IkAnalyzer.cfg.xml文件
然后在名为stopword.dic的文件中，添加想要拓展的词语即可：

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun/dtd/properties.dtd">
<properties>
        <comment>IK Analyzer 扩展配置</comment>
        <!--用户可以在这里配置自己的扩展字典 *** 添加扩展词典-->
        <entry key="ext_dict">ext.dic</entry>
</properties>

mapping映射属性

对索引库中文档的约束，常见的mapping属性包括：

type：字段数据类型，常见的简单类型有：

字符串：text（可分词的文本）、keyword（精确值，例如：品牌、国家、ip地址）
数值：long、integer、short、byte、double、float、
布尔：boolean
日期：date
对象：object
index：是否创建索引，默认为true
analyzer：使用哪种分词器
properties：该字段的子字段

索引库操作

查看索引库
GET /索引库名

删除索引库
DELETE /索引库名 

创建索引库：PUT /索引库名

索引库和mapping一旦创建无法修改，但是可以添加新的字段
添加字段：PUT /索引库名/_mapping

例如：
PUT /索引库名/_mapping
{
  "properties": {
    "新字段名":{
      "type": "integer"
    }
  }
}

文档操作

创建文档：POST /索引库名/_doc/文档id  { json文档 }

查询文档：GET /索引库名/_doc/文档id

删除文档：DELETE /索引库名/_doc/文档id

修改文档：
	全量修改：PUT /索引库名/_doc/文档id { json文档 }
	增量修改：POST /索引库名/_update/文档id { "doc": {字段}}

动态映射

插入文档时，es会检查文档中的字段是否有mapping,

如果没有则按照默认mapping规则来创建索引

如果默认mapping规则不符合你的需求，一定要自己设置字段mapping

JSON类型	Elasticsearch类型
字符串	日期格式字符串：mapping为date类型普通字符串：mapping为text类型，并添加keyword类型子字段
布尔值	boolean
浮点数	float
整数	long
对象嵌套	object，并添加properties
数组	由数组中的第一个非空类型决定
空值	忽略

ES中支持两种地理坐标数据类型：
geo_point：由纬度（latitude）和经度（longitude）确定的一个点。例如：“32.8752345, 120.2981576”
geo_shape：有多个geo_point组成的复杂几何图形。例如一条直线，“LINESTRING (-77.03653 38.897676, -77.009051 38.889939)”

字段拷贝可以使用copy_to属性将当前字段拷贝到指定字段。示例：

“all”: {
	"type" : "test",
	"analyzer" : "ik_max_word"
},
"brand" : {
	"type" : "keyword",
	"copy_to" : "all"
}

整合Spring Boot

RestClient操作索引库

ES官方提供了各种不同语言的客户端，用来操作ES，组装DSL语句，通过http请求发送给ES。官方文档地址：https://www.elastic.co/guide/en/elasticsearch/client/index.html

引入es的RestHighLevelClient依赖：

<dependencies>
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-data-elasticsearch</artifactId>
        </dependency>
</dependencies>

因为SpringBoot默认的ES版本是7.6.2，所以我们需要覆盖默认的ES版本：

<properties>
        <java.version>1.8</java.version>
        <elasticsearch.version>7.12.1</elasticsearch.version>
</properties>

初始化RestHighLevelClient：

@SpringBootTest
class EsDemoApplicationTests {
    private RestHighLevelClient highLevelClient;

    @Test
    void contextLoads() {
    }

    @BeforeEach
    void setUp(){
        this.highLevelClient = new RestHighLevelClient(
                RestClient.builder(HttpHost.create("http://192.168.150.101:9200")));
    }

    @AfterEach
    void tearDown() throws IOException {
        this.highLevelClient.close();
    }
    
}

利用JavaRestClient实现创建、删除索引库，判断索引库是否存在

索引库操作的基本步骤：

初始化RestHighLevelClient
创建XxxIndexRequest。XXX是Create、Get、Delete
准备DSL（ Create时需要）
发送请求。调用RestHighLevelClient#indices().xxx()方法，xxx是create、exists、delete

	//创建索引库代码
    @Test
    void testCreateHotelIndex() throws IOException {
        // 1.创建Request对象
        CreateIndexRequest request = new CreateIndexRequest("Hotle");
        // 2.请求参数，MAPPING_TEMPLATE是静态常量字符串，内容是创建索引库的DSL语句
        request.source(MAPPING_TEMPLATE, XContentType.JSON);
        // 3.发起请求
        highLevelClient.indices().create(request, RequestOptions.DEFAULT);

    }

    //删除索引库代码
    @Test
    void testDelectHotelIndex() throws IOException {
        // 1.创建Request对象
        DeleteIndexRequest request = new DeleteIndexRequest("hotel");
        // 2.发起请求
        highLevelClient.indices().delete(request, RequestOptions.DEFAULT);

    }

    //判断索引库是否存在
    void testExistsHotelIndex() throws IOException {
        // 1.创建Request对象
        GetIndexRequest request = new GetIndexRequest("hotel");
        // 2.发起请求
        boolean exists = highLevelClient.indices().exists(request, RequestOptions.DEFAULT);
        // 3.输出
        System.out.println(exists);
    }

RestClient操作文档

文档操作的基本步骤：

初始化RestHighLevelClient
创建XxxRequest。XXX是Index、Get、Update、Delete
准备参数（Index和Update时需要）
发送请求。调用RestHighLevelClient#.xxx()方法，xxx是index、get、update、delete
解析结果（Get时需要）

添加数据到索引库

相当于POST /indexName/_doc/1 -> POST /索引名/\_doc/文档id

@Test
void testIndexDocument() throws IOException {
    // 1.创建request对象，文档id为字符串类型
    IndexRequest request = new IndexRequest("indexName").id("1");
    // 2.准备JSON文档
    request.source("{\"name\": \"Jack\", \"age\": 21}", XContentType.JSON);
    // 3.发送请求
    client.index(request, RequestOptions.DEFAULT);
}

根据id查询数据

相当于GET /indexName/_doc/1

@Test
void testGetDocumentById() throws IOException {
    // 1.创建request对象
    GetRequest request = new GetRequest("indexName", "1");
    // 2.发送请求，得到结果
    GetResponse response = client.get(request, RequestOptions.DEFAULT);
    // 3.解析结果 
    String json = response.getSourceAsString();
    System.out.println(json);
}

根据id修改数据

修改文档数据有两种方式：
方式一：全量更新。再次写入id一样的文档，就会删除旧文档，添加新文档
方式二：局部更新。只更新部分字段，这里演示方式二

@Test
void testUpdateDocumentById() throws IOException {
    // 1.创建request对象
    UpdateRequest request = new UpdateRequest("indexName", "1");
    // 2.准备参数，每2个参数为一对 key value
    request.doc(
    "age", 18,
    "name", "Rose"
    );
    // 3.更新文档
    client.update(request, RequestOptions.DEFAULT);
}

//实例的DSL语句为
POST /users/_update/1
{
    "doc": {
        //需要修改的语句
        "name" : "Rose",
        "age" : 18
    }
}

根据id删除文档数据

@Test
void testDeleteDocumentById() throws IOException {
    // 1.创建request对象
    DeleteRequest request = new DeleteRequest("indexName", "1");
    // 2.删除文档 
    client.delete(request, RequestOptions.DEFAULT);
}

利用JavaRestClient批量导入数据到ES

利用mybatis-plus查询酒店数据

将查询到的数据（Hotel）转换为文档类型数据（HotelDoc）

利用JavaRestClient中的Bulk批处理，实现批量新增文档，示例代码如下

@Test
void testBulk() throws IOException {
    // 1.创建Bulk请求
    BulkRequest request = new BulkRequest(); 
    // 2.添加要批量提交的请求：这里添加了两个新增文档的请求
    request.add(new IndexRequest("hotel")
    .id("101").source("json source", XContentType.JSON));
    request.add(new IndexRequest("hotel")
    .id("102").source("json source2", XContentType.JSON));
    // 3.发起bulk请求
    client.bulk(request, RequestOptions.DEFAULT);
}

更多推荐

Docker部署Elasticsearch和入门整合Spring Boot

Docker部署Elasticsearch和入门整合Spring Boot

文章目录

Elasticsearch数据库

安装ES

部署可视化界面kibana

分词器

mapping映射属性

索引库操作

文档操作

动态映射

整合Spring Boot

RestClient操作索引库

利用JavaRestClient实现创建、删除索引库，判断索引库是否存在

RestClient操作文档

添加数据到索引库

根据id查询数据

根据id修改数据

根据id删除文档数据

利用JavaRestClient批量导入数据到ES

发布评论取消回复

最近发表

热门文章

标签列表

Docker部署Elasticsearch和入门整合Spring Boot

文章目录

Elasticsearch数据库

安装ES

部署可视化界面kibana

分词器

mapping映射属性

索引库操作

文档操作

动态映射

整合Spring Boot

RestClient操作索引库

利用JavaRestClient实现创建、删除索引库，判断索引库是否存在

RestClient操作文档

添加数据到索引库

根据id查询数据

根据id修改数据

根据id删除文档数据

利用JavaRestClient批量导入数据到ES

相关文章

发布评论取消回复

最近发表

热门文章

标签列表