Skip to content

1、你认为用java , streaming , pipe方式开发map/reduce , 各有哪些优点

Java 写 mapreduce 可以实现复杂的逻辑,如果需求简单,则显得繁琐。

HiveQL 基本都是针对 hive 中的表数据进行编写,但对复杂的逻辑(杂)很难进行实现。写起来简单。

2、请列出正常的hadoop集群中hadoop都分别需要启动 哪些进程,他们的作用分别都是什么,请尽量列的详细一些。

namenode:负责管理hdfs中文件块的元数据,响应客户端请求,管理datanode上文件block的均衡,维持副本数量

Secondname:主要负责做checkpoint操作;也可以做冷备,对一定范围内数据做快照性备份。

Datanode:存储数据块,负责客户端对数据块的io请求

Jobtracker :管理任务,并将任务分配给 tasktracker。

Tasktracker: 执行JobTracker分配的任务。

Resourcemanager、Nodemanager、Journalnode、Zookeeper、Zkfc

3、hbase过滤器实现原则

可以说一下过滤器的父类(比较过滤器,专用过滤器)

4、查看所有的topic

./Kafka-topic.sh --list --zookeeper node01 xx 省略

5、insert into 和override write区别

insert into:将某一个表的数据写到另一个表

override write :覆盖之前的表

6、Kafka的消息发送

./Kafka-console-producer.sh --boker-list node01:2181,node2:2181,node3:2181

7、Hive与关系型数据库的关系?

没有关系,hive是数据仓库,不能和数据库一样进行实时的CRUD操作。

是一次写入多次读取的操作,可以看成是ETL的工具。

8、hive的内表和外表

内部表:未被external修饰,由hive自身管理,删除后会直接删除元数据及存储数据,对表的修改会将修改直接同步给元数据的内部表

外表:被ex修饰,由hdfs管理,表存储有自己决定,删表仅会删除元数据,hdfs文件并不会被删除

9、请列出正常的hadoop集群中hadoop都分别需要启动 哪些进程,他们的作用分别都是什么,请尽量列的详细一些。

namenode:负责管理hdfs中文件块的元数据,响应客户端请求,管理datanode上文件block的均衡,维持副本数量

Secondname:主要负责做checkpoint操作;也可以做冷备,对一定范围内数据做快照性备份。

Datanode:存储数据块,负责客户端对数据块的io请求

Jobtracker :管理任务,并将任务分配给 tasktracker。

Tasktracker: 执行JobTracker分配的任务。

Resourcemanager

Nodemanager

Journalnode

Zookeeper

Zkfc

10、那些RDD 需要cache

会被重复使用的RDD,但是不能太大

11、谈谈数据倾斜,如何发生的,并给出相应的解决办法

12、hive为何分区

13、Hbase的rowKey怎么创建比较好?列簇怎么创建比较好?

14、varhadooppids用于做什么?

15、收集日志的模型

16、在2.5亿个整数中找出不重复的整数,注,内存不足以容纳这2.5亿个整数。

17、hive有哪些方式保存元数据,各有哪些优点

18、hive如何控制权限

19、hadoop中,有哪些地方使用到了缓存机制,作用分别是什么?

20、hadoop进程名

21、这会导致安全问题吗?

22、在Hadoop_PID_DIR中,PID代表了什么?

23、RDD有哪些缺陷?

24、hive使用版本

25、hive底层与数据库交互原理

26、hive的原数据存储

27、mapreduce的调度模式(题意模糊,可以理解为yarn的调度模式,也可以理解为mr的内部工作流程)

28、spark的优化怎么做?

29、怎么在海量数据中找出重复次数最多的一个?

30、flush的过程

31、如何重启Namenode?

32、MapReduce优化经验

33、Fsck的全名?

用心去做高质量的内容网站,欢迎 star ⭐ 让更多人发现