SJDocs

1、你认为用java ， streaming ， pipe方式开发map/reduce ，各有哪些优点

Java 写 mapreduce 可以实现复杂的逻辑，如果需求简单，则显得繁琐。

HiveQL 基本都是针对 hive 中的表数据进行编写，但对复杂的逻辑（杂）很难进行实现。写起来简单。

2、请列出正常的hadoop集群中hadoop都分别需要启动哪些进程，他们的作用分别都是什么，请尽量列的详细一些。

namenode：负责管理hdfs中文件块的元数据，响应客户端请求，管理datanode上文件block的均衡，维持副本数量

Secondname:主要负责做checkpoint操作；也可以做冷备，对一定范围内数据做快照性备份。

Datanode:存储数据块，负责客户端对数据块的io请求

Jobtracker :管理任务，并将任务分配给 tasktracker。

Tasktracker: 执行JobTracker分配的任务。

Resourcemanager、Nodemanager、Journalnode、Zookeeper、Zkfc

3、hbase过滤器实现原则

可以说一下过滤器的父类（比较过滤器，专用过滤器）

4、查看所有的topic

./Kafka-topic.sh --list --zookeeper node01 xx 省略

5、insert into 和override write区别

insert into：将某一个表的数据写到另一个表

override write ：覆盖之前的表

6、Kafka的消息发送

./Kafka-console-producer.sh --boker-list node01:2181,node2:2181,node3:2181

7、Hive与关系型数据库的关系？

没有关系，hive是数据仓库，不能和数据库一样进行实时的CRUD操作。

是一次写入多次读取的操作，可以看成是ETL的工具。

8、hive的内表和外表

内部表：未被external修饰，由hive自身管理，删除后会直接删除元数据及存储数据，对表的修改会将修改直接同步给元数据的内部表

外表：被ex修饰，由hdfs管理，表存储有自己决定，删表仅会删除元数据，hdfs文件并不会被删除

9、请列出正常的hadoop集群中hadoop都分别需要启动哪些进程，他们的作用分别都是什么，请尽量列的详细一些。

namenode：负责管理hdfs中文件块的元数据，响应客户端请求，管理datanode上文件block的均衡，维持副本数量

Secondname:主要负责做checkpoint操作；也可以做冷备，对一定范围内数据做快照性备份。

Datanode:存储数据块，负责客户端对数据块的io请求

Jobtracker :管理任务，并将任务分配给 tasktracker。

Tasktracker: 执行JobTracker分配的任务。

Resourcemanager

Nodemanager

Journalnode

Zookeeper

Zkfc

10、那些RDD 需要cache

会被重复使用的RDD，但是不能太大

1、你认为用java ， streaming ， pipe方式开发map/reduce ，各有哪些优点

2、请列出正常的hadoop集群中hadoop都分别需要启动哪些进程，他们的作用分别都是什么，请尽量列的详细一些。

3、hbase过滤器实现原则

4、查看所有的topic

5、insert into 和override write区别

6、Kafka的消息发送

7、Hive与关系型数据库的关系？

8、hive的内表和外表

9、请列出正常的hadoop集群中hadoop都分别需要启动哪些进程，他们的作用分别都是什么，请尽量列的详细一些。

10、那些RDD 需要cache

11、谈谈数据倾斜，如何发生的，并给出相应的解决办法

12、hive为何分区

13、Hbase的rowKey怎么创建比较好？列簇怎么创建比较好？

14、varhadooppids用于做什么？

15、收集日志的模型

16、在2.5亿个整数中找出不重复的整数，注，内存不足以容纳这2.5亿个整数。

17、hive有哪些方式保存元数据，各有哪些优点

18、hive如何控制权限

19、hadoop中，有哪些地方使用到了缓存机制，作用分别是什么？

20、hadoop进程名

21、这会导致安全问题吗？

22、在Hadoop_PID_DIR中，PID代表了什么？

23、RDD有哪些缺陷？

24、hive使用版本

25、hive底层与数据库交互原理

26、hive的原数据存储

27、mapreduce的调度模式（题意模糊，可以理解为yarn的调度模式，也可以理解为mr的内部工作流程）

28、spark的优化怎么做？

29、怎么在海量数据中找出重复次数最多的一个？

30、flush的过程

31、如何重启Namenode？

32、MapReduce优化经验

33、Fsck的全名？

11、谈谈数据倾斜，如何发生的，并给出相应的解决办法 ​

12、hive为何分区 ​

13、Hbase的rowKey怎么创建比较好？列簇怎么创建比较好？ ​

14、varhadooppids用于做什么？ ​

15、收集日志的模型 ​

16、在2.5亿个整数中找出不重复的整数，注，内存不足以容纳这2.5亿个整数。 ​

17、hive有哪些方式保存元数据，各有哪些优点 ​

18、hive如何控制权限 ​

19、hadoop中，有哪些地方使用到了缓存机制，作用分别是什么？ ​

20、hadoop进程名 ​

21、这会导致安全问题吗？ ​

22、在Hadoop_PID_DIR中，PID代表了什么？ ​

23、RDD有哪些缺陷？ ​

24、hive使用版本 ​

25、hive底层与数据库交互原理 ​

26、hive的原数据存储 ​

27、mapreduce的调度模式（题意模糊，可以理解为yarn的调度模式，也可以理解为mr的内部工作流程） ​

28、spark的优化怎么做？ ​

29、怎么在海量数据中找出重复次数最多的一个？ ​

30、flush的过程 ​

31、如何重启Namenode？ ​

32、MapReduce优化经验 ​

33、Fsck的全名？ ​