关键词:食品图像;ConvNeXt;多尺度特征;注意力机制
摘 要:针对食品图像中类间差异小、类内差异大以及结构复杂导致识别难度大等问题,提出了一种融合多尺度特征及注意力机制的食品图像识别方法。首先,采用特征提取能力更强的ConvNeXt模型作为主干网络,以更好地捕捉食品图像的细节特征;其次,引入改进的ASPP模块,扩展感受野并利用多尺度信息,增强模型对不同尺度特征的捕捉能力;最后,在每个卷积块后加入注意力机制,提高特征表达和上下文信息捕捉能力。实验结果表明,所提方法在Vireo Food172扩展数据集和ETH Food101数据集上的准确率分别达到91.56%和87.22%,相比原模型分别提高了2.05%和1.66%,验证了该方法的有效性。
内 容:原文可通过湖北省科技资源共享服务平台(https://www.hbsts.org.cn/)获取