1、我们可以在 Elasticsearch 中执行搜索的各种可能方式有哪些?
核心方式如下:
方式一:基于 DSL 检索(最常用) Elasticsearch提供基于JSON的完整查询DSL来定义查询。
GET /shirts/_search
{
"query": {
"bool": {
"filter": [
{ "term": { "color": "red" }},
{ "term": { "brand": "gucci" }}
]
}
}
}
方式二:基于 URL 检索
GET /my_index/_search?q=user:seina
方式三:类SQL 检索
POST /_sql?format=txt
{
"query": "SELECT * FROM uint-2020-08-17 ORDER BY itemid DESC LIMIT 5"
}
功能还不完备,不推荐使用。
2、ElasticSearch对于大数据量(上亿量级)的聚合如何实现?
ElasticSearch提供的首个近似聚合是cardinality度量。它提供一个字段的基数,即该字段的distinct或者unique值的数目。它是基于HLL算法的。HLL会先对我们的输入做哈希运算,然后根据哈希运算结果中的bits做概率估算从而得到基数。其特点是:
可配置的精度,用来控制内存的使用(更精确=更多内存),小的数据集精度是非常高的;我们可以通过配置参数来设置去重需要的固定内存使用量,无论数千还是数十亿的唯一值,内存使用量只与你配置的精确度相关 。
图片
3、详细描述一下 Elasticsearch 索引文档的过程
面试官:想了解 ES 的底层原理,不再只关注业务层面了。
解
这里的索引文档应该理解为文档写入 ES,创建索引的过程。文档写入包含:单文档写入和批量 bulk 写入,这里只解释一下:单文档写入流程。
**第一步:**客户写集群某节点写入数据,发送请求。(如果没有指定路由/协调节点,请求的节点扮演路由节点的角色。)
**第二步:**节点 1 接受到请求后,使用文档_id 来确定文档属于分片 0。请求会被转到另外的节点,假定节点 3。因此分片 0 的主分片分配到节点 3 上。
**第三步:**节点 3 在主分片上执行写操作,如果成功,则将请求并行转发到节点 1和节点 2 的副本分片上,等待结果返回。所有的副本分片都报告成功,节点 3 将向协调节点(节点 1)报告成功,节点 1 向请求客户端报告写入成功。
**如果面试官再问:**第二步中的文档获取分片的过程?
回借助路由算法获取,路由算法就是根据路由和文档 id 计算目标的分片 id 的
过程。
1shard = hash(_routing) % (num_of_primary_shards)
4、elasticsearch 数据预热
数据预热是指,每隔一段时间,将热数据
手动在后台查询一遍,将热数据刷新到fileSystem cache上
5、如何使用 Elasticsearch Tokenizer?
Tokenizer 接收字符流(如果包含了字符过滤,则接收过滤后的字符流;否则,接收原始字符流),将其分词。同时记录分词后的顺序或位置(position),以及开始值(start_offset)和偏移值(end_offset-start_offset)。
6、elasticsearch 数据的写入原理
es数据写入原理主要可以分为4个操作:
1、 refresh
2、 commit
3、 flush
4、 merge
操作触发条件 | 操作过程 |
---|---|
refresh | 1\、每隔1s进行一次refresh操作 |
2\、buffer已满,则进行一次refresh操作 | |
2\、清空buffer | |
commit | 1\、每隔30分钟执行一次translog |
2\、translog日志已满 | |
2\、生成一个 commit point 文件标识此次操作一件把buffer数据执行到了哪一个segment文件 | |
3\、执行flush操作 | |
flush | commit操作中 |
merge | 后台检查 |
7、你是如何做 ElasticSearch 写入调优的?
1)写入前副本数设置为0;
2)写入前关闭refresh_interval设置为-1,禁用刷新机制;
3)写入过程中:采取bulk批量写入;
4) 写入后恢复副本数和刷新间隔;
5) 尽量使用自动生成的id。
8、Elasticsearch是如何实现Master选举的?
1、 Elasticsearch的选主是ZenDiscovery模块负责的,主要包含Ping(节点之间通过这个RPC来发现彼此)和Unicast(单播模块包含一个主机列表以控制哪些节点需要ping通)这两部分;
2、 对所有可以成为master的节点(node.master: true)根据nodeId字典排序,每次选举每个节点都把自己所知道节点排一次序,然后选出第一个(第0位)节点,暂且认为它是master节点。
3、 如果对某个节点的投票数达到一定的值(可以成为master节点数n/2+1)并且该节点自己也选举自己,那这个节点就是master。否则重新选举一直到满足上述条件。
4、 补充:master节点的职责主要包括集群、节点和索引的管理,不负责文档级别的管理;data节点可以关闭http功能*。
9、ElasticSearch主分片数量可以在后期更改吗?为什么?
不可以,因为根据路由算法shard = hash(document_id) % (num_of_primary_shards),当主分片数量变化时会影响数据被路由到哪个分片上。
10、如何监控 Elasticsearch 集群状态?
Marvel 让你可以很简单的通过 Kibana 监控 Elasticsearch。你可以实时查看你的集群健康状态和性能,也可以分析过去的集群、索引和节点指标。