在人间: 贴个技术文章──防火城墙升级版

今天看《金融时报》（Finanz Times）的新闻推送，发现了一个新东西，有个公司的下属嘴巴不严实，夸耀自己公司的产品获得某政府大量订单。去这个公司网站看看到底是啥玩意，结果看完这个软件介绍后顿觉得醍醐灌顶，茅塞顿开。

注意这个软件的介绍，网络信息雷达系统，顾名思义就是比过去的GWF更加强大的工具，思科公司搞的那个耗费数亿元的系统只能被动防御，这个确实进攻型的。不光可以搜集HTML代码流里面的各种信息，还能收集PDF，Word文档，电子表格，演示文档，XML文档里面的信息。这个技术Google做得比较好，但是Google可能对个人数据并不是感兴趣。这个公司的方向可能跟google正好是相反的，这个专门用来搜集电子邮件，网页，附件之类的内容是不是有不“健康”或者不“文明”或者不“和谐”的内容。而且完全可以绕过网站中robots.txt对搜索爬虫的行为限制。这个跟百度搜索有异曲同工之妙。

不过有一点是Google也做不到的，那就是多语言内容的处理，例如这个软件说明书上声称，它可以处理中、英、日、韩、俄、法、西、德、阿拉伯语的信息处理。对于新八国联军的处理能力着实让谷歌颜面扫地，让雅虎无地自容。

这个系统号称可以准确过滤掉垃圾邮件，信息等。这里的垃圾的定义就有学问了。所以等以后发生丢信事件，你得琢磨琢磨是不是发了一些“垃圾信息”了。可能这个东西骨干网络上不需要，但是各地的政府部门和公安系统确实需要一套，这样象天涯这样的网站才没有炒作的素材，大家才有更多时间看看电视，看看CCTV，多了解一下天下大事，不用整天贴在电脑跟前，弄得家里关系紧张，夫妻不和，孩子没人照顾。

不过想一下，这得需要多少地方存储数据阿。如果实时处理的话，那需要多么强劲的处理能力啊，一年得需要多少电力啊。IDC的耗电量绝对是“不看不知道，世界真奇妙”的水平。(本文会不会被收入呢？一定会吧！)
=======================引用内容的分割线============================

TRS InfoRadar集信息采集监控、网络舆情、竞争情报等多种功能于一体，被广泛地应用于政府、媒体、科研、企业等各个行业中。

TRS InfoRadar在内容运营的垂直搜索应用、内容监管的网络舆情应用以及决策支持的竞争情报等方面的应用，将极大的提高组织对外部信息的获取效率，极大降低信息采集成本，全方位掌控环境脉动，并提高各个组织的快捷反应效能。TRS InfoRadar让各行业的所有人员受益。

产品体验&产品资料

TRS网络信息雷达系统―TRS InfoRadar

点击进入产品体验中心

产品概述

TRS网络信息雷达系统（TRS InfoRadar）实时监控和采集Internet网站内容，对采集到的信息自动进行过滤、分类和排重等智能化处理，最终将最新内容及时发布出来，实现统一的信息导航。同时提供包括全文、日期等在内的全方位信息查询。

网络信息雷达由三个逻辑模块组成：
网络信息智能采集工具：实时监控网站，并把最新的网页采集到本地，进行内容处理。
TRS全文数据库系统：根据应用的具体需求存储到不同的目标上。比如存储成TRS格式文件，或存储到TRS全文数据库中，或存储到关系数据库（SQL Server、Oracle）等。
Web发布模块：实现网页信息的统一发布，导航和检索功能。

另外，雷达的网页信息可方便地导入TRS WCM系统中，积累成网站发布的素材。

产品特色

双模服务1＋1> 2

独立模式
按照用户的需求设置采集网站，定制分类模板，建立本地数据库，用户完全拥有软件产品。

SaaS模式
数据采集、加工的繁琐工作由厂商完成，用户只需定制需要的信息即可。

绿色节能搜索冲击波

绿色环保
TRS InfoRadar按需过滤掉互联网的电子垃圾信息，准确获取目标。

节能先锋
TRS InfoRadar是节约能源先锋，通过自动化、智能化、多样化、个性化的雷达信息采集和监控，避免了人力、物力等资源的浪费。

产品架构

产品功能

超群的信息采集

采集全面，采全率高

信息采集			TRS是否支持
采集内容	网页	Htm、Html、Shtml等网页以及网页中的图片和表格等内容	√
	文档	.doc、.pdf、.xls、.ppt、.txt、.xml等文档格式	√
	多媒体	图片、音频、视频（可利用脚本引擎实现对基于http传输的视频信息的采集）等内容的采集	√
采集类型	网站	Web网站	√
	博客	博客采集	√
	论坛	定义论坛模版控制，对论坛进行子贴抽取和元数据属性抽取	√
	评论	网上新闻评论	√
采集动态页面	JavaScript	动态页面，实现JavaScript自动解析	√
	include	支持Html文件自身外挂文件（include）采集	√
	认证数据	简化用户配置，并可适应更复杂的网站认证过程	√
	参数设置情况	支持Cookie和Referer参数的设置支持	√
	支持翻页数据	增强翻页采集功能，包括支持翻页步长设置，支持.Net的post翻页方式	√
支持RSS解析	可自动解析RSS的XML文件，抽取网页的链接、标题、时间等信息		√
多语言采集	支持的多语言包括中、英、日、韩、俄、法、西、德、阿拉伯语等		√

各类元数据准确采集
定位元数据：支持利用mata和html标签实现各项元数据信息的精准采集与智能抽取，能够采集结构化数据。
与CKM整合：实现丰富的信息抽取：包括人名、电话等详细信息，供人们分析和利用。
多种个性化设置：在需要的情况下人工配置，实现部分元数据的准确解析。

高效采集，性能超群
采集的效率：在10M网络带宽环境下，每小时可以采集5万个网页。
高效的更新：已经采集过的信息不会重复采集，更新时只获取前次采集后更新的网页。数据索引更新时间平均小于0.02s/记录。
大规模集群应用：单个采集工具能支持千万数量级的网页采集。通过集群应用，就可以实现更大规模的海量搜索。

智能的信息处理

自动分类
采集的网页可以基于内容的自动分类，不需人工干预，自动分类达到85%以上准确率。同时，提供智能分类训练工具，允许用户自行根据自己的分类需求和数据特点设定分类结构和生成特征模板。

自动排重
采用TRS相似性检索技术实现，可根据文档内容的匹配程度确定是否重复，比利用网页标题和大小等规则判断具有更强的准确性、实用性以及运行效率。

垃圾过滤
自动过滤网页中新闻的正文内容，剔除广告、版权等垃圾信息。

其它
自动生成网页摘要以及自动抽取网页中的关键词等。

及时的信息发布

一键式发布
支持自动和人工发布两种方式。采集的信息可及时发布到提供服务的网站上。

可发布专题内容

快捷的信息检索

支持多语言网页的采集和检索
支持中、英、日、韩、俄、法、西、德、阿拉伯语等语言。

支持大量并发用户的查询请求
采用基于成本优化的查询算法，多用户并发检索，每秒可响应60个以上查询。

支持对多种属性的检索
包括按日期、URL、标题等，同时提供排序功能。

快捷的检索速度
成功管理用户T级规模的数据，保证了检索速度和可靠性。现在，在G级数据集合上达到亚秒级检索速度。

运行环境

TRS实时信息采集机器人
（TRS InfoRadar）

Microsoft Windows 95/98/NT/2000/2003

TRS全文数据库系统
（TRS Database Server）

Unix( Solaris7/8/9/10，AIX 4.3(POWER3平台)/AIX5L(POWER4平台)，PUX11.11(PA-RISC平台))
Microsoft Windows 2000/2003(x86平台)
Linux2.2及以上

TRS实时信息发布、导航和检索 Web模块

支持Tomcat(Apache)、WebSphere、

WebLogic等应用服务器，支持多种操作系统平台。

在人间

2009年1月5日星期一

贴个技术文章──防火城墙升级版

没有评论:

在人间-MSN Space

博客归档

文章分类

版权声明