包括使用docker部署ES,es入门的基础概念和基础框架,以及Java Spring Boot整合es,基础使用JavaRestClient操作索引库和文档
本Elasticsearch快速入门Java版笔记是在某站黑xx马公开资料上再修改和总结整理。

文章目录

      • Elasticsearch数据库
        • 安装ES
        • 部署可视化界面kibana
        • 分词器
        • mapping映射属性
        • 索引库操作
        • 文档操作
        • 动态映射
      • 整合Spring Boot
        • RestClient操作索引库
        • 利用JavaRestClient实现创建、删除索引库,判断索引库是否存在
        • RestClient操作文档
          • 添加数据到索引库
          • 根据id查询数据
          • 根据id修改数据
          • 根据id删除文档数据
          • 利用JavaRestClient批量导入数据到ES

Elasticsearch数据库

elasticsearch是elastic stack的核心,负责存储、搜索、分析数据。

Kibana: 数据可视化

Elasticsearch: 存储、计算、搜索数据

Logstash,Beats: 数据抓取

  • 什么是文档(document)和词条(term)?
    每一条数据就是一个文档
    对文档中的内容分词,得到的词语就是词条
  • 什么是正向索引?
    基于文档id创建索引。查询词条时必须先找到文档,而后判断是否包含词条
  • 什么是倒排索引?
    对文档内容分词,对词条创建索引,并记录词条所在文档的信息。查询时先根据词条查询到文档id,而后获取到文档

倒排索引中包含两部分内容:

  • 词条词典(Term Dictionary):记录所有词条,以及词条与倒排列表(Posting List)之间的关系,会给词条创索引,提高查询和插入效率

  • 倒排列表(Posting List):记录词条所在的文档id、词条出现频率 、词条在文档中的位置等信息

    • 文档id:用于快速获取文档
    • 词条频率(TF):文档在词条出现的次数,用于评分

elasticsearch是面向文档存储的,可以是数据库中的一条商品数据,一个订单信息。文档数据会被序列化为json格式后存储在elasticsearch中

Mysql:擅长事务类型操作,可以确保数据的安全和一致性
Elasticsearch:擅长海量数据的搜索、分析、计算

MySQLElasticsearch说明
TableIndex索引(index),就是文档的集合,类似数据库的表(table)
RowDocument文档(Document),就是一条条的数据,类似数据库中的行(Row),文档都是JSON格式
ColumnField字段(Field),就是JSON文档中的字段,类似数据库中的列(Column)
SchemaMappingMapping(映射)是索引中文档的约束,例如字段类型约束。类似数据库的表结构(Schema)
SQLDSLDSL是elasticsearch提供的JSON风格的请求语句,用来操作elasticsearch,实现CRUD

安装ES

docker官网搜索 https://hub.docker/_/elasticsearch

下拉看到官方支持的版本为

部署单点ES

创建网络,因为还需要部署kibana容器(执行DLM语句工具),因此需要让es和kibana容器互联

docker network create es-net

采用elasticsearch的7.17.4版本的镜像,这个镜像体积非常大,接近1G。不建议自己pull。(同理kibana的tar)
(我当时为了减少内存使用,拉了docker官网中官方支持的es版本是 7.17.4 )

# 导入数据
docker load -i es.tar

运行docker命令,部署单点es

docker run -d \
	--name es \
    -e "ES_JAVA_OPTS=-Xms512m -Xmx512m" \
    -e "discovery.type=single-node" \
    -v es-data:/usr/share/elasticsearch/data \
    -v es-plugins:/usr/share/elasticsearch/plugins \
    --privileged \
    --network es-net \
    -p 9200:9200 \
    -p 9300:9300 \
elasticsearch:7.17.4

命令解释:

  • -e "cluster.name=es-docker-cluster":设置集群名称
  • -e "http.host=0.0.0.0":监听的地址,可以外网访问
  • -e "ES_JAVA_OPTS=-Xms512m -Xmx512m":内存大小
  • -e "discovery.type=single-node":非集群模式
  • -v es-data:/usr/share/elasticsearch/data:挂载逻辑卷,绑定es的数据目录
  • -v es-logs:/usr/share/elasticsearch/logs:挂载逻辑卷,绑定es的日志目录
  • -v es-plugins:/usr/share/elasticsearch/plugins:挂载逻辑卷,绑定es的插件目录
  • --privileged:授予逻辑卷访问权
  • --network es-net :加入一个名为es-net的网络中
  • -p 9200:9200:端口映射配置

在浏览器中输入:http://虚拟机ip地址:9200 即可看到elasticsearch的响应结果

  • 部署可视化界面kibana

运行docker命令,部署kibana

docker run -d \
--name kibana \
-e ELASTICSEARCH_HOSTS=http://es:9200 \
--network=es-net \
-p 5601:5601  \
kibana:7.17.4
  • --network es-net :加入一个名为es-net的网络中,与elasticsearch在同一个网络中
  • -e ELASTICSEARCH_HOSTS=http://es:9200":设置elasticsearch的地址,因为kibana已经与elasticsearch在一个网络,因此可以用容器名直接访问elasticsearch
  • -p 5601:5601:端口映射配置

kibana启动一般比较慢,需要多等待一会,可以通过命令:

docker logs -f kibana

查看运行日志,当查看到下面的日志,说明成功

在浏览器输入地址访问:http://虚拟机ip地址:5601,即可看到结果

首页

首页

Dev Tools界面

  • 分词器

处理中文分词,一般会使用IK分词器。https://github/medcl/elasticsearch-analysis-ik

  • 安装ik分词器

在线安装

# 进入容器内部
docker exec -it elasticsearch /bin/bash

# 在线下载并安装
./bin/elasticsearch-plugin  install https://github/medcl/elasticsearch-analysis-ik/releases/download/v7.12.1/elasticsearch-analysis-ik-7.12.1.zip

#退出
exit
#重启容器
docker restart elasticsearch

离线安装

查看数据卷目录

docker volume inspect es-plugins

解压安装包,并上传到es容器的插件数据卷中

# 4、重启容器
docker restart es
# 查看es日志
docker logs -f es
  • 集群部署

部署es集群可以直接使用docker-compose来完成,不过要求你的Linux虚拟机至少有4G的内存空间

首先编写一个docker-compose文件,内容如下

version: '2.2'
services:
  es01:
    image: docker.elastic.co/elasticsearch/elasticsearch:7.12.1
    container_name: es01
    environment:
      - node.name=es01
      - cluster.name=es-docker-cluster
      - discovery.seed_hosts=es02,es03
      - cluster.initial_master_nodes=es01,es02,es03
      - bootstrap.memory_lock=true
      - "ES_JAVA_OPTS=-Xms512m -Xmx512m"
    ulimits:
      memlock:
        soft: -1
        hard: -1
    volumes:
      - data01:/usr/share/elasticsearch/data
    ports:
      - 9200:9200
    networks:
      - elastic
  es02:
    image: docker.elastic.co/elasticsearch/elasticsearch:7.17.4
    container_name: es02
    environment:
      - node.name=es02
      - cluster.name=es-docker-cluster
      - discovery.seed_hosts=es01,es03
      - cluster.initial_master_nodes=es01,es02,es03
      - bootstrap.memory_lock=true
      - "ES_JAVA_OPTS=-Xms512m -Xmx512m"
    ulimits:
      memlock:
        soft: -1
        hard: -1
    volumes:
      - data02:/usr/share/elasticsearch/data
    networks:
      - elastic
  es03:
    image: docker.elastic.co/elasticsearch/elasticsearch:7.17.4
    container_name: es03
    environment:
      - node.name=es03
      - cluster.name=es-docker-cluster
      - discovery.seed_hosts=es01,es02
      - cluster.initial_master_nodes=es01,es02,es03
      - bootstrap.memory_lock=true
      - "ES_JAVA_OPTS=-Xms512m -Xmx512m"
    ulimits:
      memlock:
        soft: -1
        hard: -1
    volumes:
      - data03:/usr/share/elasticsearch/data
    networks:
      - elastic

volumes:
  data01:
    driver: local
  data02:
    driver: local
  data03:
    driver: local

networks:
  elastic:
    driver: bridge

Run docker-compose to bring up the cluster:

docker-compose up
  • 分词器的作用是什么?
    创建倒排索引时对文档分词
    用户搜索时,对输入的内容分词

  • IK分词器有几种模式?
    ik_smart:智能切分,粗粒度
    ik_max_word:最细切分,细粒度

  • 拓展字典

要拓展ik分词器的词库,只需要修改一个ik分词器目录中的config目录中的IkAnalyzer.cfg.xml文件
然后在名为ext.dic的文件中,添加想要拓展的词语即可

  • 停用字典

要禁用某些敏感词条,只需要修改一个ik分词器目录中的config目录中的IkAnalyzer.cfg.xml文件
然后在名为stopword.dic的文件中,添加想要拓展的词语即可:

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun/dtd/properties.dtd">
<properties>
        <comment>IK Analyzer 扩展配置</comment>
        <!--用户可以在这里配置自己的扩展字典 *** 添加扩展词典-->
        <entry key="ext_dict">ext.dic</entry>
</properties>

mapping映射属性

对索引库中文档的约束,常见的mapping属性包括:

  • type:字段数据类型,常见的简单类型有:

    字符串:text(可分词的文本)、keyword(精确值,例如:品牌、国家、ip地址)
    数值:long、integer、short、byte、double、float、
    布尔:boolean
    日期:date
    对象:object

  • index:是否创建索引,默认为true

  • analyzer:使用哪种分词器

  • properties:该字段的子字段

索引库操作

查看索引库
GET /索引库名

删除索引库
DELETE /索引库名 

创建索引库:PUT /索引库名

索引库和mapping一旦创建无法修改,但是可以添加新的字段
添加字段:PUT /索引库名/_mapping

例如:
PUT /索引库名/_mapping
{
  "properties": {
    "新字段名":{
      "type": "integer"
    }
  }
}

文档操作

创建文档:POST /索引库名/_doc/文档id  { json文档 }

查询文档:GET /索引库名/_doc/文档id

删除文档:DELETE /索引库名/_doc/文档id

修改文档:
	全量修改:PUT /索引库名/_doc/文档id { json文档 }
	增量修改:POST /索引库名/_update/文档id { "doc": {字段}}

动态映射

插入文档时,es会检查文档中的字段是否有mapping,

如果没有则按照默认mapping规则来创建索引

如果默认mapping规则不符合你的需求,一定要自己设置字段mapping

JSON类型Elasticsearch类型
字符串日期格式字符串:mapping为date类型普通字符串:mapping为text类型,并添加keyword类型子字段
布尔值boolean
浮点数float
整数long
对象嵌套object,并添加properties
数组由数组中的第一个非空类型决定
空值忽略

ES中支持两种地理坐标数据类型:
geo_point:由纬度(latitude)和经度(longitude)确定的一个点。例如:“32.8752345, 120.2981576”
geo_shape:有多个geo_point组成的复杂几何图形。例如一条直线,“LINESTRING (-77.03653 38.897676, -77.009051 38.889939)”

字段拷贝可以使用copy_to属性将当前字段拷贝到指定字段。示例:

“all”: {
	"type" : "test",
	"analyzer" : "ik_max_word"
},
"brand" : {
	"type" : "keyword",
	"copy_to" : "all"
}

整合Spring Boot

RestClient操作索引库

ES官方提供了各种不同语言的客户端,用来操作ES,组装DSL语句,通过http请求发送给ES。官方文档地址:https://www.elastic.co/guide/en/elasticsearch/client/index.html

  1. 引入es的RestHighLevelClient依赖:
<dependencies>
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-data-elasticsearch</artifactId>
        </dependency>
</dependencies>
  1. 因为SpringBoot默认的ES版本是7.6.2,所以我们需要覆盖默认的ES版本:
<properties>
        <java.version>1.8</java.version>
        <elasticsearch.version>7.12.1</elasticsearch.version>
</properties>
  1. 初始化RestHighLevelClient:
@SpringBootTest
class EsDemoApplicationTests {
    private RestHighLevelClient highLevelClient;

    @Test
    void contextLoads() {
    }

    @BeforeEach
    void setUp(){
        this.highLevelClient = new RestHighLevelClient(
                RestClient.builder(HttpHost.create("http://192.168.150.101:9200")));
    }

    @AfterEach
    void tearDown() throws IOException {
        this.highLevelClient.close();
    }
    
}

利用JavaRestClient实现创建、删除索引库,判断索引库是否存在

索引库操作的基本步骤:

  1. 初始化RestHighLevelClient
  2. 创建XxxIndexRequest。XXX是Create、Get、Delete
  3. 准备DSL( Create时需要)
  4. 发送请求。调用RestHighLevelClient#indices().xxx()方法,xxx是create、exists、delete
	//创建索引库代码
    @Test
    void testCreateHotelIndex() throws IOException {
        // 1.创建Request对象
        CreateIndexRequest request = new CreateIndexRequest("Hotle");
        // 2.请求参数,MAPPING_TEMPLATE是静态常量字符串,内容是创建索引库的DSL语句
        request.source(MAPPING_TEMPLATE, XContentType.JSON);
        // 3.发起请求
        highLevelClient.indices().create(request, RequestOptions.DEFAULT);

    }

    //删除索引库代码
    @Test
    void testDelectHotelIndex() throws IOException {
        // 1.创建Request对象
        DeleteIndexRequest request = new DeleteIndexRequest("hotel");
        // 2.发起请求
        highLevelClient.indices().delete(request, RequestOptions.DEFAULT);

    }

    //判断索引库是否存在
    void testExistsHotelIndex() throws IOException {
        // 1.创建Request对象
        GetIndexRequest request = new GetIndexRequest("hotel");
        // 2.发起请求
        boolean exists = highLevelClient.indices().exists(request, RequestOptions.DEFAULT);
        // 3.输出
        System.out.println(exists);
    }

RestClient操作文档

文档操作的基本步骤:

  1. 初始化RestHighLevelClient
  2. 创建XxxRequest。XXX是Index、Get、Update、Delete
  3. 准备参数(Index和Update时需要)
  4. 发送请求。调用RestHighLevelClient#.xxx()方法,xxx是index、get、update、delete
  5. 解析结果(Get时需要)
添加数据到索引库

相当于POST /indexName/_doc/1 -> POST /索引名/\_doc/文档id

@Test
void testIndexDocument() throws IOException {
    // 1.创建request对象,文档id为字符串类型
    IndexRequest request = new IndexRequest("indexName").id("1");
    // 2.准备JSON文档
    request.source("{\"name\": \"Jack\", \"age\": 21}", XContentType.JSON);
    // 3.发送请求
    client.index(request, RequestOptions.DEFAULT);
}
根据id查询数据

相当于GET /indexName/_doc/1

@Test
void testGetDocumentById() throws IOException {
    // 1.创建request对象
    GetRequest request = new GetRequest("indexName", "1");
    // 2.发送请求,得到结果
    GetResponse response = client.get(request, RequestOptions.DEFAULT);
    // 3.解析结果 
    String json = response.getSourceAsString();
    System.out.println(json);
}
根据id修改数据

修改文档数据有两种方式:
方式一:全量更新。再次写入id一样的文档,就会删除旧文档,添加新文档
方式二:局部更新。只更新部分字段,这里演示方式二

@Test
void testUpdateDocumentById() throws IOException {
    // 1.创建request对象
    UpdateRequest request = new UpdateRequest("indexName", "1");
    // 2.准备参数,每2个参数为一对 key value
    request.doc(
    "age", 18,
    "name", "Rose"
    );
    // 3.更新文档
    client.update(request, RequestOptions.DEFAULT);
}

//实例的DSL语句为
POST /users/_update/1
{
    "doc": {
        //需要修改的语句
        "name" : "Rose",
        "age" : 18
    }
}
根据id删除文档数据
@Test
void testDeleteDocumentById() throws IOException {
    // 1.创建request对象
    DeleteRequest request = new DeleteRequest("indexName", "1");
    // 2.删除文档 
    client.delete(request, RequestOptions.DEFAULT);
}
利用JavaRestClient批量导入数据到ES

利用mybatis-plus查询酒店数据

将查询到的数据(Hotel)转换为文档类型数据(HotelDoc)

利用JavaRestClient中的Bulk批处理,实现批量新增文档,示例代码如下

@Test
void testBulk() throws IOException {
    // 1.创建Bulk请求
    BulkRequest request = new BulkRequest(); 
    // 2.添加要批量提交的请求:这里添加了两个新增文档的请求
    request.add(new IndexRequest("hotel")
    .id("101").source("json source", XContentType.JSON));
    request.add(new IndexRequest("hotel")
    .id("102").source("json source2", XContentType.JSON));
    // 3.发起bulk请求
    client.bulk(request, RequestOptions.DEFAULT);
}

更多推荐

Docker部署Elasticsearch和入门整合Spring Boot