【hive】记一次hiveserver内存溢出排查,线程池未正确关闭导致

news/2025/2/8 23:05:22 标签: hive, hadoop, 数据仓库

一、使用 MemoryAnalyzer软件打开hprof文件

很大有30G,win内存24GB,不用担心可以打开,ma软件能够生成索引文件,逐块分析内存,如下图。
大约需要4小时。
在这里插入图片描述
overview中开不到具体信息。
在这里插入图片描述

二、使用Leak Suspects功能继续分析

竟然是classloader和jarfile
在这里插入图片描述9,907,656,360 (46.19%) /1024/1024/1024=9.2GB。
hivehadoop的jar包加在一起好像都没有这么大。
点开jarfile看看,没有具体内容信息。
在这里插入图片描述

三、使用Top Components分析

在这里插入图片描述具体看看:
在这里插入图片描述同一jar为什么会在内存中,经过查询资料后发现,hive每个任务的jar是相互隔离的。就是使用的不同classloader,加载所有的jar包。即使同一个class被不同的classloader加载,jvm也不认为是同一个类。这样就能避免不同用户UDF函数中定义同名类的冲突了。
下图中的展开后都是这个jar auth-adapter-1.0.0.jar,同一个jar被加载到内存很多次。
在这里插入图片描述

怎么会有这个多jar文件呢,肯定有问题。1400万个jar被加载。
在这里插入图片描述

随意找个jarfile看看他的GC root在哪里,导致其无法被GC回收。
在这里插入图片描述
是个线程,就是自己写的hive插件的线程池启动的线程。排查自己代码吧。
在这里插入图片描述
找到自己的线程池。
参考文章:
线程池与垃圾回收(GC)
JAVA 多线程并发编程 - 避坑指南
Memory Analyzer内存泄漏OOM基础概念
自己定义的线程池,其中NamedThreadFactory没有自定义classloader,其默认使用父线程的classloader,随类启动,没有定义shutdown,本来以为hive只有一个classloader,分析后发现在hiveserver2端,每个任务都有一个classloader。任务虽然结束了,但是线程池的线程没有被关闭。导致其持有的父线程的classloader,仍然被链接,无法被GC回收。

    val pool: ExecutorService = new ThreadPoolExecutor(
      1, // 核心线程数
      2, // 最大线程数
      20, // 非核心线程的空闲超时时间(秒)
      TimeUnit.SECONDS, // 时间单位
      new ArrayBlockingQueue(2), // 工作队列
      new NamedThreadFactory(prefix, true), // 自定义线程工厂
      new ThreadPoolExecutor.DiscardPolicy() // 拒绝策略
    )

同理jarfile是因classloader加载的,classloader内存占用也是相同的原因。

因此,hive的每个任务执行结束后都应该调用 pool.shutdown()


http://www.niftyadmin.cn/n/5845370.html

相关文章

Redis-6.2.14安装(CentOS7)

目录 1、下载安装包并解压 2、编译源码 3、创建日志目录与数据目录 4、创建自定义配置文件 5、赋可执行权限 6、设置环境变量 7、刷新环境变量 8、创建服务启动脚本(systemctl) 9、启动服务并将脚本加入开机自启动 10、查看服务状态 11、打开…

vscode卡住---回退版本解决

一、回退 今日本人打开vscode,发现慢到起飞,最终卡到起飞 删除缓存: C:\Users\python\AppData\Roaming\Code 重启发现回到刚安装时的界面,但是插件还在。启动速度快了,但是一打开terminal就卡。 关闭vscode,重装&…

C# SQlite使用流程

前言 不是 MySQL 用不起,而是 SQLite 更有性价比,绝大多数的应用 SQLite 都可以满足。 SQLite 是一个用 C 语言编写的开源、轻量级、快速、独立且高可靠性的 SQL 数据库引擎,它提供了功能齐全的数据库解决方案。SQLite 几乎可以在所有的手机…

【Docker】 Manifest与Buildx:多架构镜像管理的解析与实践

一.manifest的概述 manifest包含了镜像的层、标签、作者等关键信息,并支持多架构镜像的管理。通过Manifest List,开发者能够为同一应用提供适用于不同架构的镜像,从而确保其在各类平台上的兼容性。实际上是把不同操作系统和架构打包成独立的一…

STM32的HAL库开发---高级定时器

一、高级定时器简介 1、STM32F103有两个高级定时器,分别是TIM1和TIM8。 2、主要特性 16位递增、递减、中心对齐计数器(计数值:0~65535)16位预分频器(分频系数:1~65536)可用于触发DAC、ADC在更新事件、触发事件、输入捕获、输出比较时,会产生中断/DMA请…

IDEA+DeepSeek让Java开发起飞

1.获取DeepSeek秘钥 登录DeepSeek官网 : https://www.deepseek.com/ 进入API开放平台,第一次需要注册一个账号 进去之后需要创建一个API KEY,然后把APIkey记录保存下来 接着我们获取DeepSeek的API对话接口地址,点击左边的:接口…

Ubuntu 20.04配置网络

1,检查自己网络是否配通。 网络配置成功显示的网络图标 不成功的网络图标 如果看不见网络图标,可以使用ping命令。连接一下百度网。 ping www.baidu.com ping失败的样子 ping成功的样子 2,接下来进入正题,我们开始配置网络。 这…

Android Studio 2024.2.2.13版本安装配置详细教程

Android Studio 是由 Google 官方开发和维护的集成开发环境(IDE),专为 Android 应用开发设计。它是基于 JetBrains 的 IntelliJ IDEA 平台构建的,集成了丰富的工具和功能,帮助开发者高效构建、调试、测试和发布 Androi…