xp sp3补丁-百度影音老版本

高效的搜索引擎  磁力天堂
2023年4月3日发(作者:程序设计方法学)

第19卷

Vo1.19

第23期

No.23

电子设计工程

Electronic Design Engineering

2011年l2月

Dec.2011

6搜一高效的专用IPv6搜索引擎

黄皓凌,张凡

(深圳大学信息中心,广东深圳518060)

摘要:基于开源搜索引擎Nuteh.通过修改、调整和创新研制了文中介绍的6搜——一个专门搜索支持IPv6协议网

站的专用IPv6搜索引擎。6搜的特点和创新点有:采集IPv6网页的速度在每秒100页以上;采集了54 195个IPv6网

站,存储有2 000万IPv6网页,并且网页在不断更新和增加;有中文分词功能和自主创新的搜索网站功能。通过运行,

6搜为用户提供了优质IPv6搜索服务;通过对6搜采集数据的分析,得到世界IPv6网站的分布。展现了IPv6网络的

发展。

关键词:IPv6;搜索;搜索引擎;搜索网站;网络爬虫;顶级域名;Nutch;Lucene

中图分类号:TP391.3 文献标识码:A 文章编号:1674—6236(2011)23—0034—04

6 SOU-A highly effective specialized IPv6 search en ne

HUANG Hao—ling,ZHANG Fan

(Information Technology Center,Shenzhen University,Shenzhen 5 18060,China)

Abstract:Based on open source search engine Nutch,through modification,tuning and innovation,6sou,a search engine

that only searches IPv6 protocol supporting web sites,is developed.It contains following features and innovations:6sou crawls

IPv6 web sites at more than 100 pages per second;6sou has crawled 54195 web sites and has stored 20 million IPv6 web

pages;the number of pages is increasing and the pages are being updated continuously;6sou has Chinese word segmentation

feature and independently innovated search web site feature.After going online,6sou has provided users with high quality

IPv6 search service.Through the analysis of data collected by 6sou,world IPv6 web site distribution is presented.It reflects

the development of IPv6 network.

Key words:IPv6;search;search engine;search web site;web crawler;top level domain name;Nutch;Lucene

随着IPv4地址用尽。IPv6的推广正在加快步伐。中国从

教育网开始建立IPv6网络,现在愈来愈多的网站支持IPv6。

本文描述我们研制的专用IPv6搜索引擎【1‘1‘6搜”。6搜只搜索

支持IPv6协议的网站,即搜索只支持IPv6的网站也搜索既

支持IPv6又支持IPv4的网站.如果一个网站仅支持IPv4则

不在6搜搜索范围之内,不管这个网站的内容与IPv6主题有

关与否。

其他IPv6搜索引擎包括CERNET网络中心自主开发的

网络指南针[21,上海交通大学的IPv6网站搜索引擎Search6t31,

华南理工大学广东省网络重点实验室和华中科技大学、北京

大学、清华大学联合研制的下一代互联网分布式搜索引擎

Se6 。

另一个与IPv6有关的搜索引擎是谷歌IPv6。但它不是

一个“IPv6搜索引擎”,也不是“专用IPv6搜索引擎”。谷歌

IPv6搜索的回复内容和谷歌IPv4网站搜索回复的内容是完

全一样的。谷歌IPv6没有提供功能以区分网站支持IPv6还

是IPv4,或两者都支持。谷歌IPv6的搜索回复内容既包含

IPv4网站的网页也包含IPv6网站的网页。用户无法区分,除

收稿日期:2011—09—16 稿件编号:201109088

作者简介:黄皓凌(1972一),男,广东梅州人,硕士,高级工程师。

—.34——

非用户只有IPv4或IPv6而导致点击仅支持所缺协议的网站

会无法连接。ipv6.google.eom是www.google.com在IPv6上的

镜像,用户可以通过IPv6访问谷歌原有的的搜索引擎。所以

称ipv6.google.com为IPv6搜索引擎是不合适的。它是一个

“支持IPv6的搜索引擎”。这里支持有两个方面,一是支持用

户通过IPv6访问,二是搜索内容包括支持IPv6的网站。如果

从第二方面讲,www.google.con也是“支持IPv6的搜索引

擎”,因为其搜索内容中也包含支持IPv6的网站。但用户不能

通过IPv6访问www.google.com。所以通常不认为它是“支持

IPv6的搜索引擎”。

6搜现在收集有近2000万IPv6网页,而且网页在不断更

新,包括中国和国外的网页。查询回复时间在一秒以内。相比

之下。网络指南针使用的是wget程序采集网页,而非使用专用

的网页采集程序。Se6网页数比较多但搜索回复时间比较长,

并且不是专用的IPv6搜索引擎,也搜索IPv4网页。Search6

没有中文分词功能,没有搜索网站功能.网页数量少。

1 6搜的设计和结构

在研制6搜的过程中,在开源搜索引擎Nutcht ̄的基础上

研究方向:计算机.网络。

黄皓凌.等 6搜一高效的专用IPv6搜索引擎

进行了修改、调整和创新。6搜网页采集速度在每秒100页以

上.可以迅速判断网站是否支持IPv6,跳过只支持IPv4的网

站,专搜支持IPv6的网站。6搜显示搜索结果时同时提供“搜

索”和“搜索网站”功能,此为6搜的创新点之一。搜索是搜索

网页.在所有含关键字的网页被找到后进行排序。因为IPv6

网站的数目少于IPv4网站的数目,排序之后时常会发生搜索

结果中一部分或者相当多的网页是来自相同的网站。“搜索”

功能不对这样的结果进行修改。而6搜的“搜索网站”功能对

搜索结果进行合并.按照每个网站排名最高的网页对网站进

行排名。

描述“搜索网站”结果的算法如下:

Algorithm 1搜索网站

Require:排序后的网页URL字符串数组pages(索引范

围从1到n)

建立包含两个字符串域site,top_page结构的数组sites

j 1

for i=1 to n do

site

_

of

_page+。。pages[i]所在的网站

if(site_of_page∈sites[1 to j-1].site)=false then

sites ̄].site site—of_page

sites[j].top_page+。’pages[i】

j—j+1

end if

end for

f按顺序逐个输出sites内的网站和网页,在每个网页的

下方建立一个链接指向此

网站的更多网页1

for i=1 to i一1 do

print site[j].top_page

print摘要

print超链接含有anchor文本:site[j].site+“网站内

更多搜索结果”

end for

实现这个算法的方法是把Nutch提供的搜索结果处理

程序进行修改。

以下以实例描述搜索网站和搜索的区别以及搜索网站功

能的特点。在6搜按搜索键搜索“传感器”关键字的结果是:

第1一lO项(共有3,738项查询结果):

2010无线传感器网络及物联网技术国际研讨会一教育

信息化一中国教育和科研计算机网CERNET

…交流阶段,紧密围绕无线传感器网络应用关键技术和

工业界…传感器网络产业技术开发、无线传感器…117亿

会议信息2010无线…

http://www.edu.cn/xs

_

hui

_

yi

5674/20101125/t20101125

544371.shtml cached explain anchors

物联网传感器芯片三年后30%国产化一教育信息化一

中国教育和科研计算机网CERNET

…普通轿车约安装一百多只传感器,豪华轿车传感器甚

至多达二百余只。(文章…IPv6如何大显身手?物联网传

感器…

http://www.edu.cn/gjjs一7951,20l00914l/t2010O914_521589.

shtml cached explain anchors

三大技术推进物联网的实现:IPv6传感器云一教育信

息化一中国教育和科研计算机网CERNET

…技术推进物联网的实现:IPv6传感器云一教育信息

化一中国教育…技术推进物联网的实现:IPv6传感器云

http://www.edu.cn 201 1-O1—05作者…

http://www.edu.cn/pl

_

9660/201 10105h201 10105

566637.

shtml cached explain anchors

注意到排名前三位的网页均出自www.edu.en。相比之

下,在6搜按“搜索网站”键搜索“传感器”关键字的结果是:

第l—l0项(共有3,738项查询结果):

2010无线传感器网络及物联网技术国际研讨会一教育

信息化一中国教育和科研计算机网CERNET

…交流阶段,紧密围绕无线传感器网络应用关键技术和

工业界…传感器网络产业技术开发、无线传感器…l17亿

会议信息2010无线…

http/ ̄rwweducrkshui

_

yi

_

5674/20101125 ̄20101125

_

54437k

shtml cached explain anchors

WWW.edu.an网站内更多搜索结果

清华大学一Tsinghua University

…基于频率变化的数字量传感器

http'.//www.tsinghua.edu.en/publish/th/6176/index.html cached

explain anchors

www.tsinghua.edu.cn网站内更多搜索结果

开放课题指南

…异构性强、数量庞大的无线传感器网络,研究无线传

感器网络的管理架构、管理信息…效率分析。课题2:无

线…

http://www.int.bupt.cn/topic/2009-08-13-17-26-21.html

cached explain anchors

WWW.int.bupt.cn网站内更多搜索结果

搜索网站结果中,除了www.edu.en网站排第一位的网页

被保留以外,其它所有出自www.edu.cn网站的网页都不再显

示,取而代之的是www.edu.cn网站内更多搜索结果的链接。

其他网页下面也有各自的…网站内更多搜索结果的链接。

Google搜索的网站因含纯IPv4网站,所以数量多.出现

搜索结果中含有多个网页出于同一个网站并且排名连续的

情况比较少,但这个问题有时会出现,比如在Google搜索关

键词“Java”有以下结果:

1)Download Free Java Software

i。page is your source to download or update your

existing Java Runtime Environment,also known as the Java

Virtual Machine(JVM,VM,and Java VM)….

-35..

《电子设计工程)2011年第23期

WlCW.java.corn/getjava/一Cached

2) ava.com:Java+You

Get the latest Java Software and explore how Java

technology provides a...

www.java.com/-Cached-Similar

3)What is Java and why do I need it?

Java is a programming language and computing platform

first released by Sun...

www.java.com/en/download/faq/whatis_java.xml—Cached—

Similar

Show more results from java.tom

4)Java(programming language)-Wikipedia,the free ency-

clopedia

Java is a programming language originally developed by

James Gosling at Sun Microsystems(which is now a subsidiary

of Oracle Corporation)and released in…

en.wikipedia.org/wiki/Java_ (programming_language) 一

Cached—Similar

注意到第3项有Show more results from iava.com而第4

项却没有Show more results from en.wikipedia.org。给人印象是

iava.corn网站里有多个含有iava关键字的网页而维基百科没

有,实际上维基百科(en.wikipedia.0rg)里含有Java词条也不

止一个,比如http://en.wikipedia.org/wiki/Java就是一个维基百

科里Java的搜索结果,但是谷歌并没有提供“显示更多维基

百科的Java搜索结果”链接使得用户可以通过点击这个链接

而同时看到Java编程语言和Java(爪哇)岛的条目。6搜的

“搜索网页”功能会在维基百科的结果下列出Show more

results from en.wikipedia.org。原Nutch的搜索结果呈现方法

是每个网站只列出排名最高的前两个网页,而在每个网站第

一个网页的下方列出其网站(more from http://…)提示用户点

击以列出网站中的其它搜索结果。网页下方换页的键是next

page。在显示了几页后,显示页面下方的键从next page换为

show allhits,用户点击show allhits以后,Nutch转入网页列出

模式,列出所有网页而不列出网站。这样就常会出现多个网

页出自同~个网站,而且这些网页往往在排名上是连续的.在

屏幕上连在一起。Nutch这种中途转换显示方式的方法虽然

提供了两种不同的结果显示方法,但却使不少用户感到迷惑.

因为这种结果显示方式和其他搜索引擎的显示方式不同。

6搜的创新解决方法是提供前面提到的“搜索网站”功

能。在实现过程中,对Nutch源代码进行修改。在Nutch源码

中每个网站列出的网页数是可以选择的.6搜设置每个网站

列出的网页数为1而且提供在这个参数下的搜索结果为搜

索网站的搜索结果(再加上网站链接)。所以6搜的搜索网站

的搜索结果是网站和这些网站排名最前的网页。网站的排名

是由网站内排名最前的网页的排名决定的。6搜直接提供“搜

索”和“搜索网站”的功能而不是象Nutch那样在显示了几页

结果之后转入另一种模式。用户从开始有了选择搜索方式的

-36-

选项。

谷歌使用的是一种既含有搜索又含有搜索网站的搜索

结果呈现方式。谷歌根据算法列出有些网页所在的网站.而

对有些网页则不列出其网站,即使在同一网站有其他网页有

相同的关键字。百度搜索结果似乎全部是网页。以Java的搜

索结果为例,在第1页里百度并没有列出www.java.com更多

搜索的结果的链接,而仅在tieba.baidu.COB的一个网页下显

示“更多贴吧相关讨论”

6搜是基于开源搜索引擎Nutch 1.1版。Nutch是基于

Lucene搜索引擎。Nutch和Lucene都使用Java语言,可以支

持分布式,几亿或更多网页的搜索。Nutch网络爬虫的原理是

从种子网站出发,一层一层采集由超链接连接起来的网页。

每遍历一层把收取的网页进行分析,筛选出排名最高的网页

进行下一次的采集。总的来说,采集IPv6网页的方法有两种,

一是从IPv6的网站种子出发,跟随IPv6的超链接进行采集,

这样收集到的网页从种子到网页都是经过IPv6网站的超链

接。另一种方法是从种子出发收集IPv6和IPv4网页,并对每

个网页进行标记(IPv6和/或IPv4),搜索时根据需要提供

IPv6、IPv4的网页。如果不使用超链接遍历,采取IP地址的全

范围采集,在IPv6地址域上是难以进行的,因为IPv6地址数

量巨大,有3.4x1038个地址,不可能在较短时间内遍历地址。

6搜采取的是IPv6超链接遍历法。以网上收集到的IPv6

网站做种子作为采集的开始。以下介绍为了进行IPv6网页采

集对Nutch爬虫的修改。Nutch的爬虫有一个队列填充器,多

个队列,(其中每个队列对应一个网站,即是同一个网站在本

次将被收集的所有网页都在一个队列里),多个采集网页的

线程。在采集网页线程中做如下判断,如果进行IPv6网页采

集(这个功能在程序运行时用一个开关一ipv6控制,如果没有

这个选项,网页爬虫不进行IPv6过滤).对每个网站主机名做

一次IP地址查询。因为一个网站可能有IPv4地址或IPv6地

址,或既有IPv4地址又有IPv6地址,6搜把查询结果的返回

顺序设为先返回IPv6地址,后返回IPv4地址。如果返回的地

址是IPv4在先,就说明这个网站没有IPv6地址,是一个纯

IPv4网站,6搜采集网页线程即跳过这个网站不进行采集。如

果先返回的地址是IPv6.说明这是一个支持IPv6的网站,6

搜不管下一个地址是不是IPv4地址.采集网页线程会开始采

集这个网页。

提高网页采集速度可以在同样的时间内采集更多的网

页,还可以加快网页更新的速度。采集网页线程进行多线程

地址查询的时候需要进行高速、并行的地址解析。Java的地

址解析函数InetAddress.getHostAddress自带缓存[61,如果有查

询到已经查询过的网站。InetAddress会在缓存中查找地址,

速度很快。缓存项的保留时间需要被改得长一些,比如两个

星期。但是这个缓存在JVM运行之后就会消失,下次运行爬

虫的时候又要进行缓存的建立过程,而这个建立过程是比较

缓慢的,通常要等一段时间以后大部分的域名才被加入缓

存。进一步的方法是同时使用建立在服务器上的专用缓存

黄皓凌,等 6搜一高效的专用IPv6搜索引擎

DNS服务器。6搜使用BIND,在Recursive DNS Cache模式上

实现。缓存项保存时间设为三个星期。这样,缓存项就长期保

存在专用DNS服务器里面。

6搜爬虫有时会遇到截短的zip文件,它们会导致zip解

析/解压器进入无限循环而降低网页采集速度并加重服务器

的负载。解决这个问题需要下载apache—commons—compres一

1.1.jar替换原先在plugins/parse—tika目录里的1.0版本。

能处理中文的搜索引擎需要有中文分词功能,中文分词

就是把一个中文的句子分成词,如果没有特制的中文分词功

能.最简单的方法就是每个字被分作一个词。如果这样搜索

“互联网”会把含有“互”、“联”、“网”单字的网页也搜索出来。

Nutch自带的中文分词即是把每个字分做一个词。6搜整合

了极易中文分词JEAnalysisol以实现中文分词功能。

2 6搜采集的数据

6搜自从2010年l1月上线以来到2011年6月,采集了

54195个IPv6网站的网页。其中IPv6网站最多的顶级域名如

表1和图1所示

图1世界IPv6网站分布

Fig.1 World IPv6 web site distribution

根据IPv6论坛发布,截止2011年6月8日。全球共有

1 206个网站获得IPv6 Enabled WWW Logo.其中中国大陆有

276个网站获得Logo,占全球总量的25%左右,居世界首位目。

相比之下,6搜记录的是网络爬虫采集过网页的网站,其中一

些是使用虚拟主机(Virtual Hosting)共享IP地址的网站,包

括博客网站等.与IPv6论坛手工登记的网站不完全相同。

3与IPv6有关的搜索引擎

6搜与其它与IPv6有关的搜索引擎在表2中比较。6搜

自2011年l1月上线两个月后在多个主流搜索引擎(百度,

谷歌,搜狗,搜搜)“IPv6搜索”关键字搜索下均排名领先。

4结束语

6搜是已知目前国内领先的专用IPv6搜索引擎。6搜协

助推广IPv6网络,为用户提供IPv6内容详细搜索。并且,对

已采集IPv6网站的统计也展示了IPv6的快速发展状况。由

于IPv6上的一项重要应用是物联网,IPv6物联网搜索是今

后研究的一个课题。另外随着IPv6的普及,IPv6网站内容越

来越多,6搜的采集规模也将逐步扩大。

表1世界 6网站分布

Tab.1 WOrIdⅡIv6 web site distribution

表2与Ⅱ'v6有关的搜索引擎} 较

Tab.2 IPv6 related search engine comparison

参考文献:

[1]黄皓凌,张凡.6搜【EB/OL].(2011-07-05).http://6sou.SZU.

edu・cn. (下转第40页)

-37-

《电子设计工程}2011年第23期

图6主界面

Fig.6 MainInterface

独立测试。

1)测试连接支持

构成完整的测试系统需要以下硬件设备:

①综合信息处理装置(内部固化控制程序):

②综合测控器(内部固化控制程序);

③综合控制器(内部固化控制程序);

④直流稳压电源。

2)测试设备连接

各设备的连接关系如图7所示。

综台信

图7测试设备连接图

Fig.7 Test equipment block diagram

3)测试内容

测试内容包括RAM测试、读板号测试、本机DPRAM测

试、其他板DPRAM测试17]、电源板DPRAM测试、读CPU板

RT值、指令测试、A/D测试、状态量1—10测试、心跳信号测

试、本机心跳使能、本机心跳禁止、同步信号测试、本机同步

使能、本机同步禁止、1553B工作模式切换测试、机器复位、复

位封锁、结果清除、自动循环测试。

5结束语

在综合信息处理系统的研制过程中,采用模块设计.基

于ARM芯片的设计和使用集成度高、功耗低、可靠性高:综

合信息处理系统经过严格的测试,符合各项功能需求,性能

稳定、可靠。

参考文献:

[1】张石.ARM嵌入式系统设计【M】.北京:机械工业出版社,

2010.

[21刘凯.ARM嵌入式接口技术应用【M1.北京:清华大学出版

社.2009.

【3】黄菁,刘青春.ARM嵌入式系 GPIO¥ ̄展键盘设计『J1.自

动化应用,2011,7:1—3.

HUANG Jing.LIU Qing-ehun.The Design of GPIO Extended

Keyboard Based O11 ARM Embedded System,Automation

Application,2011,7:1-3.

【4]余祖龙.面向对象程序设计与VC程序设计入门【M】.北京:

北京航空航天大学出版社.2010.

【5】张忠帅.VC++2008题应用程序开发实例精讲【M】.北京:

电子工业出版社.2008.

【6]欧阳志宏,董霖,钟俊华.MFC# ̄-序设计轻松入门【M].北

京:人民邮电出版社。2009.

【7】刘海旭,马连川,李世光.一种安全计算机板级测试系统

的设计与实现[J】.现代电子技术,201l(5):131-134.

LIU Hai—xu,MA Lian-ehuan,U Shi—guang.Design and

implementation ofboard level testing system for safety computer

[J1.Modern Electronics Technique,2011(5):131-134.

(上接第37页)

[2]叶绍志,刘辉,李粤,等.从搜索引擎 IPv6网络增长[J].

中兴通讯技术,2002,8(3):1—3.

YE Shao—zhi,LIU Hui,LI Yue,et a1.Viewing the growth of

IPv6 networks through search engine[J].ZTE Technology

Journal,2002,8(3):1-3.

【3】上海交通大学网络信息中心.Search6[EB/OL].(2011-07—

05).http://seareh6.sjtu.edu.cn

『4】华南理工大学广东省网络重点实验室.下一代互联网分

布式搜索引擎【EB/OLI.华南理工大学,(2011—07-05).

http://www.se6.edu.on

【5】Apache Nutch.Nutch【EB/OL].(2011-07—05).http://nuteh.

-40..

apache.org

[6]Heydon A,Najork M.Mercator:A sealable,extensible web

crawler IJ】.World Wide Web,1999,2(4):219—229.

[7】极易软件.极易中文分词【EB/OL].(2010—11—01).http://

jesof1.cn:9080.

【8]IPv6 ̄.全球支持IPv6网站破千中国大陆位居第--[EB/

OL]. (201 1 _07 _05).httpY/www.ipv6day.en/ipv6day.

aspArtielelD=-563

【9]李明.百度将于今年三季度正式提供IPv6访问服务.【EB/

OL].(201 1一o7-5)http:JJwww.cnbeta.corrdarticles/139543.

htm.

更多推荐

高效的搜索引擎 磁力天堂