硅丰佳盾互联网容过滤软件技术白皮书.doc
文本预览下载声明
硅丰佳盾互联网内容过滤软件技术白皮书
简 介
武汉市硅丰科技发展有限公司是专业从事网络安全和数据保障的软件企业,主要研发、生产、销售互联网内容过滤产品和数据安全产品。针对互联网上有害网络泛滥的现状,本公司自主研发了硅丰佳盾(GuardForce)互联网内容过滤系统,该系统集成了网络开关、内容识别和AGENT技术,运行在WINDOWS平台上,支持WIN98/Me/2000/XP等操作系统,可以过滤监控IE、NETSCAPE、MSN, ICQ, realplayer, quicktime等网络应用程序,系统自带的过滤库包含10大类55万2002年8月硅丰佳盾获得公安部颁发的计算机信息系统安全专用产品销售许可证,许可证编号:XKC30271。
?? ? ??
5万个不良网站; URL关键字过滤; 通讯端口控制;
根据关键字限制应用程序执行;
过滤数据库升级;
?远程规则管理、配置、发布;
远程计算机屏幕抓取;
向远程计算机发送短消息;
系统要求
操作系统:Windows 9X/Me/Win2000/XP浏览器:? Internet Explorer5.x/6.0, Netscape5.x/6.x, Opera处理器:? Pentium 以上;内? 存:? 至少32MB硬盘空间:至少100MB空间上网方式:28.8k,33.6k,56k, ISDN, ADSL, 10/100 Ethernetpass-through)过滤技术,是精确的、可靠的、可扩展的互联网过滤技术,每台计算机发出的互联网访问请求将通过“硅丰佳盾”的检查点进行实时检查,判断其是否被允许或禁止访问。
B.“硅丰佳盾”通过一个系统附带的过滤数据库(Master Database)对网络访问请求进行过滤,过滤数据库中包含超过55万10个大类,包括了:色情、在线电影, 赌博、暴力、毒品、黑客等类型的站点。管理者可以依据时间限制上网的时段;手动添加允许或禁止访问的站点;定义在URL中过滤的关键字;同时“硅丰佳盾”还具备端口管理功能,您可以限制计算机上各种联网游戏的运行(例如:网上扑克,网络围棋,QQ聊天等)。每天都有新的站点加入到我们的数据库之中,“硅丰佳盾”将自动(或手动)下载过滤数据库升级包,以确保您的网络内容过滤引擎和互联网的发展相一致。
C.“硅丰佳盾”软件作用于WINDOWS网络层,不在运行任务列表之中,也不占用WINDOWS系统资源,其它非授权程序或操作员无法终止它的运行。
D.“硅丰佳盾”可以对WINDOWS网络的流通实施内容控制,检查URL的关键字和主机地址、通讯时间、端口等。“硅丰佳盾”使用起来相当容易,应用程序(IE、Netscape、outlook)中无需设置就可以直接使用本系统。任何发生的IP数据流都通过经过“硅丰佳盾”代理中继(relay)、检查(check)、转发(forward)。
E.“硅丰佳盾”可以根据应用程序标题栏关键字禁止运行EXE应用程序;例如:输入“Windows Media Player”可禁止媒体播放机程序运行。同理可以
基于语义的内容识别算法
“语义识别”是硅丰佳盾内容过滤系统的另一项关键性技术创新。
HTML是一个结构化的文档,分析其结构可以获得许多关于网页内容和类别的描述信息。通过对大量网页的分析发现,以下几个特定位置中最有可能出现与图像相关的文本。要从HTML文档中提取有用的关键字,需要进行以下几个步骤的处理,首先通过HTML标志符过滤器,去除文本中夹杂的HTML标签,如〈CENTER〉,〈FONT〉等,此后得到的是句子和短语的集合,我们再运用词典技术将集合切割成独立的单词,但这些词还不足以构成描述,因为许多单词并无确切的含义,再通过小词过滤器(small word filter)过滤掉助词、介词、连接词等无意义词,至此文本已抽象成为关键字的集合,再以每个关键字为分量构造一个高维向量,其中每个分量的长度是用“TF*IDF”算法得到该关键字的权值。
计算机对特定内容的识别率需要达到一定的准确度,需要具备分类的基础知识库,将知识库的语义数学模型与网站内容的语义数学模型相比较,研判二者的相似度,给出分类及分级指数。基础知识库的知识覆盖面和语义数学模型决定了机器内容识别的准确度。
我们采用一系列的方法搜集:通过门户网站搜索引擎,利用专用软件检索、识别、分类,将已被门户分类的成人、色情、恐怖、邪教等不良网址复制到数据库中;我们还采用了软件机器 人在网络中爬行访问,采用QBE(Query By Example)和LSA(Latent Semantic Algorithm)查询含有特定内容的网址,分析语义,判断网址的分数。该计算程序使用分布式并行计算结构,运行时耗用大量计算和网络资源,
显示全部