天融信TopFlow提升内容管理识别率超99%

1 2 34

More 技术支持

More 行业案例

More 招标信息

首页 >> 营销资讯 >> 厂商动态

天融信TopFlow提升内容管理识别率超99%

2012/9/3

对于很多企业而言，旁路审计在遇到大流量时往往遭遇尴尬。先来看看某个用户的应用场景：7条出口，总计8G的实时流速，平均同时在线机器为10万台机器，高峰会超过14万台机器，要求完整记录所有HTTP通信，包括BBS发贴内容，MSN和QQ等聊天内容或过程。

　　过滤无用数据帮旁路审计省把力

　　随着宽带接入技术的发展及互联网业务应用的迅速扩张，涉及互联网内容安全审计的需求越来越多。而国家要求必须对用户网络可能涉密行为进行事后取证。而在大流量网络环境下的取证就必须通过部署旁路审计系统来实现。那么在大流量环境下，内容安全审计系统的抓包能力到底如何呢？

　　通过天融信公司对网络流量分布的长期研究表明，在绝大多数网络中，若对网络流量无任何约束和限制时，网络中65%~80%的流量均被P2P下载及网络视频流量所占用，真正浏览网页、聊天、工作等流量并不如想象中的那么多，最多不会超过总带宽的30%，这对于旁路内容审计设备来说是一件很不公平的事，因为审计设备总要处理超过60%无用的数据。这对于小流量环境来说，影响还不十分突出，但对于大流量环境，每秒产生的数据量会很快写满磁盘。海量数据使得系统无法处理，导致的后果轻则丢失大量的关键数据，没有尽到审计的职责，重则磁盘经快速读写很快损坏，造成所有数据丢失。同时，从目前内容安全审计系统的实现技术来看，单独的上行和下行数据还需要一定的技术进行会话重组，这样才能还原出真正的关键内容，否则会被看作垃圾包来处理。实际上，很多产品都不具备对单独的上行数据、下行数据进行两个接口的独立审计，这的确需要一套较好的组包还原技术。

　　而针对P2P应用进行识别，则需要借助复杂的应用层识别技术，并使用各种方法来检测这些难以捉摸的应用，其中80和8080端口就是典型的逃避检测技术。这种典型的端口跳动技术盗用一些常用服务协议端口进行通信传输的伪装，因此仅仅通过对端口进行识别显然是远远不够，这也是传统流量检测系统对P2P无能为力的重要原因之一。对于普通应用识别引擎，一旦不能识别出80和8080端口的P2P行为，那么镜像端口送往审计系统的http流量就会迅速增长，而这就是误识别造成的后果。

　　提升识别精度让流量筛选更得力

　　那么，如何来解决这些棘手的问题？假设有一套装置能够充当流量筛选器，仅仅只将旁路审计系统所关心的内容输送给他，那么审计系统会非常轻松的胜任该工作，而且非常轻松。这套装置到底是什么？是否有这样的装置呢？我们先来分析基本的要求，首先该系统要能够精确的识别什么流量是P2P下载、什么流量是网络视频流量，只要准确加以判断和识别，将这些流量剔除，然后将我们关心的如数据库操作、网站浏览及论坛微博发帖、聊天、邮件等可能涉密的流量进行流量复制镜像，将这部分流量送给审计系统，那么即可满足这样的需求。因此，精确识别就是其中关键，只有精确识别，才能免除误判。而天融信公司新发布的流量控制Topflow产品的内容管理识别率可达99%，远远大于业界50%-60%的检测水平，完全满足了流量筛选无误判的要求，成为该类产品的一大突破。

　　TopFlow采用了独有的节点跟踪技术，一个节点就是一个二元组：“IP+端口”。众所周知的终端应用，某个端口号一旦被上层分配调用，那么这个端口号不能被二次使用。因此，IP+端口一定能准确定位终端的某个应用程序，而且为唯一应用，这就是节点定义的根本出发点。采用节点跟踪好处在于三个方面：一是高效。一旦这个节点被先期发现，则在一个会话的生命周期内，这个节点后续的数据不再被送入检测引擎，而是直接放行或限流，这种高效运作的方式可实现最高120G的吞吐。二是对私有协议的精确判断识别，减少误报。常见于企业用户，使用到自定义协议功能时，比如企业内部有ERP等服务器时，用户先自定义一个协议（如TopSecERP），然后再将ERP服务器的IP地址和端口作为一个节点加进去，这样在后续的流量统计中，将可以统计到这个ERP应用流量。三是对应用进行精确识别和判断。比如某种应用特征非常模糊，很难准确判断，此时采用节点跟踪技术，在一个生命周期内，即可将此类应用准确的分类，以便交给下一个探测引擎进行进一步的“身份”确认，这就是伪装探测技术。

　　对于天融信TopFlow系统而言，当某种应用特征非常模糊不清时，伪装探测技术就走到了前台，这种探测技术可模拟上百种应用请求，且随时等待应答“是”或无应答，当他伪装成一个电驴客户端向服务器请求时，对端若回答“是”，则表明的确是电驴应用；若不应答，则表明不是，系统总是根据大的分类智能伪装探测，直到确认其真实身份为止。

　　从技术上而言，检查一个应用特征，主要有三种方法，一种方法称为标准检测，主要靠识别报头信息的地址和端口，这种方法常见于做QOS的网关设备；第二种方法称为DPI（深度包检测），这是业界常用的术语，绝大多数设备声称具有这样的技术，常见于“下一代内容检测系统”及UTM类设备。从理论上，数据流中每个报文的任意字段或数据流传输过程中的任何特征都可以作为应用协议识别的依据，但实际上，如何快速选择最有效的数据流特征信息的难度远远超过了想象。第三种方法称为解密检测方法，就是将数据流送入一个分类器，数据流被分类之后，将加密数据流送入一个解密引擎，解密引擎通过预置的解密算法对数据解密，解密后再次返回分类器进行检查。天融信TopFlow系统采用这种技术来识别加密数据，通过这种独有的技术，使得精确识别率能达到99%。

　　结束语

　　通过以上技术分析可以看出，通过精确的识别，将涉密及非法信息通过精确识别，然后有选择地镜像给内容安全审计系统，这样就可以大大降低内容安全审计的压力，避免由于性能导致的内容安全审计不完整问题，真正解决大流量环境中内容安全审计的难题。