1. 主页 > 人工智能 >

用于商业应用的深度学习图像字幕技术

应用于将图像上描绘的像素序列通过人工智能转换为文字的技术不像五年或更早以前那么原始。更好的性能、准确性和可靠性使得在不同领域(从社交媒体到电子商务)的流畅和高效的图像字幕成为可能。标签的自动创建对应于下载的照片。这项技术可以帮助盲人发现他们周围的世界。
人工智能
本文介绍了图像字幕技术的用例、其基本结构、优点和缺点。此外,我们部署了一个模型,该模型能够对输入图像上显示的内容进行有意义的描述。
 
作为视觉语言目标,图像字幕可以在计算机视觉和自然语言处理的帮助下解决。
点击推文
作为视觉语言目标,图像字幕可以在计算机视觉和 NLP 的帮助下解决。AI 部分搭载 CNN(卷积神经网络)和 RNN(循环神经网络)或任何适用模型以达到目标。
 
在继续讨论技术细节之前,让我们找出图像字幕的位置。
 
AI 驱动的图像标记和描述用例
“图像字幕的核心是计算机视觉功能,可支持范围广泛的服务之一,”说 学东黄,微软技术研究员和Azure的AI认知服务的CTO在华盛顿州雷蒙德市。
 
他有一个观点,因为图像字幕技术的领域已经非常广泛,即:电子商务的图像标记、照片共享服务和在线目录。
 
在这种情况下,正在执行按照片自动创建标签。例如,当用户将图像上传到在线目录时,它可以简化用户的生活。在这种情况下,人工智能识别图像并生成属性——这些属性可以是签名、类别或描述。该技术还可以确定在线商店的服装类型、材料、颜色、图案和合身度。
 
同时,图片说明可以通过照片共享服务或任何在线目录来实现,为搜索引擎优化或分类目的自动创建有意义的图片描述。此外,字幕允许检查图像是否符合将要发布的平台规则。在这里,它可以替代 CNN 分类,并有助于增加流量和收入。
 
注意: 为视频创建描述是一项复杂得多的任务。尽管如此,目前的技术状态已经使其成为可能。
 
盲人自动图像注释
要开发这样的解决方案,我们需要将图片转换为文本,然后再转换为语音。这是深度学习技术的两个著名应用。
 
 微软开发的一款名为Seeing AI的应用程序 可以让眼睛有问题的人使用智能手机查看周围的世界。当相机对准它时,程序可以读取文本并给出声音提示。它可以识别印刷和手写文本,以及识别物体和人物。
 
谷歌 还推出了一种工具,可以为图像创建文本描述,让盲人或视力有问题的人了解图像或图形的上下文。这个机器学习工具由几个层组成。第一个模型识别图片中的文本和手写数字。然后另一个模型识别周围世界的简单物体——如汽车、树木、动物等。第三层是一个高级模型,能够在成熟的文本描述中找出主要思想。
 
社交媒体的 AI 图像字幕
借助基于人工智能的工具生成的图像标题已经可用于 Facebook 和 Instagram。此外,模型会一直变得更加智能,学会识别新的对象、动作和模式。
 
大约五年前,Facebook 创建了一个能够创建替代文本描述的系统。如今,它变得更加准确。以前,它使用一般的词来描述图像,但现在这个系统可以生成详细的描述。
 
使用 AI 识别徽标
图像字幕技术也正在与其他人工智能技术一起部署。例如,DeepLo​​go 是一个基于 TensorFlow 对象检测 API 的神经网络。它可以识别标识。已识别标识的名称在图像上显示为标题。基于 GAN 的标识合成模型的研究可以为 GAN 的工作原理带来启示。
 
研究用于图像字幕的深度学习模型
我们应用了一个模型,为图片创建有意义的文本描述,同时牢记可能的用例。例如,标题可以描述作为每个图像上主要对象的动作和对象。对于训练,我们使用了 Microsoft COCO 2014 数据集。
 
COCO 数据集是大规模对象检测、分割和字幕数据集。它包含大约 150 万个不同的对象,分为 80 个类别。每张图像都用五个人工生成的标题进行注释。
 
我们应用 Andrej Karpathy 的训练、验证和测试拆分 来划分数据集以训练、验证和测试部分。此外,我们需要 BLEU、ROUGE、METEOR、CIDEr、SPICE 等指标来评估结果。
 
比较用于图像字幕的 ML 模型
通常,图像字幕的基线架构将输入编码为固定形式,并将其逐字解码为序列。
 
编码器将具有三个颜色通道的输入图像编码为具有“学习”通道的较小打印件。这个较小的编码图像是原始图像中所有有用的摘要表示。对于编码,可以应用任何 CNN 架构。此外,我们可以对编码器部分使用迁移学习。
 
解码器查看编码图像并逐字生成标题。然后,每个预测的词用于创建下一个词。
 
在继续之前,先看看我们通过使用 Meshed-Memory 转换器模型创建模型和测试得到的结果。

本文由网上采集发布,不代表我们立场,转载联系作者并注明出处:http://www.34iot.com//a/peixun/445.html

联系我们

在线咨询:点击这里给我发消息

微信号:weixin888

工作日:9:30-18:30,节假日休息