一、背景一、背景.PDF
文本预览下载声明
A 题题 电商平台电商平台图片中文字的识别图片中文字的识别
题题 电商平台电商平台图片中文字的识别图片中文字的识别
一、一、背景:背景:
一、一、背景:背景:
由于电子商务环境下用户无法接触商品实物,电商网站提供的商品信息是用户做出购买决定的重要依据。不同的电
商平台展现商品信息的风格虽然各有不同,总的来说商品信息除了一部分以文本、表格形式给出外,越来越多地以图片
的形式呈现。图1 是京东商城上某电水壶商品页面的示例。
图1、京东商城的某商品页面
京东商城商品页面中的“规格参数”部分以文本表格的形式给出了商品的常规属性,对特定的商品类目这部分往往
有比较固定的内容格式,如图2 所示。
图2、某品牌电水壶的规格参数信息
京东商城的 “商品介绍商品介绍””部分主要以图片列表的形式提供有关商品的更多信息,包括商品独特的独特的设计设计特点特点、商品的商品的
商品介绍商品介绍”” 独特的独特的设计设计特点特点 商品的商品的
优势优势、适用场景适用场景等。商品信息图片提供了很多 “规格参数”部分未包含的商品信息,是顾客了解和选择商品的重要参考,
优势优势 适用场景适用场景
如图3 所示。
图片是一种更为生动和形象的视觉表达方式,但也为电子商务网站的管理者带来了技术上的挑战。电商平台对商家
发布的商品信息有严格的管理规范,如《京东开放平台禁发商品及信息管理规范》:
/Vender/viewQuestion-852-2011.html 和《京东开放平台商品标题及广告语发布规范》
/Vender/viewQuestion-852-2687.html。 在这里,我们主要考虑商品信息图片中的文本信息的管理问
题:图片中的文本以光学字符的形式表达,不能使用计算机直接检索和处理。
最常见的问题是,商品信息图片中的内容和商品规格参数中的内容不一致。例如某电热水壶产品规格参数中标明材
质为“拉丝不锈钢”,而商品信息图片中介绍为304 不锈钢。这将造成用户理解上的困扰:到底哪一个是准确的呢?实
际上“拉丝”是不锈钢的一种表面处理工艺,“拉丝不锈钢”并没有说明所采用不锈钢材料的成分所符合的国家标准。
商品信息图片可能出现的另一个问题是,采用图片的方式来规避对敏感或违禁词的检测。我国的 《广告法》和《反
不正当竞争法》分别对虚假广告和利用广告作引人误解的虚假宣传作了禁止性规定。文本形式的商品介绍信息较易进行
检测,而使用图片将大大增加电商网站监管的难度和工作量。除了电商网站,微信等社交软件 中也存在大量以图像格式
存在的文本信息,所以这一问题具有普遍性。
要解决以上的这些 问题,需要设计一个系统来自动地从商品信息图片上提取其 中的文本信息,这将有助于电子商务
企业更好地做出商品推荐、售后服务和信息监管。
图3、某电水壶的商品信息图片 (部分)
二、二、根据附件提供的数据,设计相应的算法,解决以下任务,并做出评测(根据附件提供的数据,设计相应的算法,解决以下任务,并做出评测(F-score )。)。
二、二、根据附件提供的数据,设计相应的算法,解决以下任务,并做出评测(根据附件提供的数据,设计相应的算法,解决以下任务,并做出评测( )。)。
1、 图片中的字符检测
根据商品信息图片中字符和背景的特点,
显示全部