HanDs
管理员

[Visual Studio文章] 制作自己的网络搜索软件 



  对于http协议,其中包括重要的几种传送数据的方法,其中比较常用的有GET和POST方法,对于使用GET方法进行传送数据的网站来说,使用上面的形式百发百中,都能够通过一条查询语句返回所需要查询的内容网页,但对于使用 POST方法的网站,有可能返回不了查询结果网页,不过从我的经验看,一般来说是能够成功的。

  知道了如何向服务器发送查询语句,下面我们就从程序的角度来写:假若窗体上有一个文本框Text1、一个标签Label1、一个浏览器Webbrowser1、一个按钮Command11,其中文本框用于输入关键词,浏览器用于显示查询结果网页,按钮用于发出请求语句,那么点击Command1的程序语句可以这样写:

Private Sub Command1_Click()

Dim url As String

On Error Resume Next '出错后继续

If Text1.Text = "" Then MsgBox "请先输入关键字": Exit Sub '防止不输入关键词

url = "http://search.chinese.yahoo.com/search/gb?p=" +Text1.Text '将关键词放入查询语句中

Webbrowser1.Navigate url'调用浏览器显示查询结果

End Sub

  雅虎的查询语句比较简单,而对于比较复杂网站的查询语句一定要注意的是各个关键参数之间一定要用“&”来隔开。虽然你只是学会了这一招,但已经足够利用网上的资源来编写你的第一个程序了,因为网上所有类型的表单都能表示了,无论是查询股票、软件、书籍、图片,都不外乎这种模式。只要你将查询网页调入 Frontpage、Dreamwaver等所见即所得的网页编辑软件中,便会毫无遮拦的展现在你的面前,利用这些链接,再加上一个好的界面,当然可以制作自己的搜索工具软件了,不过要注意的是,有些表单的传送路径的是相对路径,这时要加上网站的地址链接。
  可能有人要说,这么简单,谁不知道,不是为了赚稿费吧?错。刚才的方法比起直接访问搜索站点的确能节省不少上网的时间,但并没有将程序的优势全部发挥出来,我们现在继续讲另外一种检索网页的方法:首先介绍一个控件Microsoft Internet Transfer(这个控件在安装vb或者某些程序的时候会自动安装),这个控件允许建立与其他计算机的链接,并传送文件。它使两个Internet规则 HTTP和FTP的使用变得容易。当正常访问一个网页时,Internent Transfer用GET命令访问网络浏览器的一个文件。例如,如果打开了URL http://www.cpcw.com/index.htm,浏览器将建立与地址在www.cpcw.com的机器的链接,并传送命令GET/index.htm。HTML 将通过链接以普通文本的方式返回,因为返回的内容只是所要的网页的源文件,节省了很多用于传送显示网页中图像的时间,速度要快了许多,但最重要的是我们可以很方便地使用自己的逻辑对凡会的源文件进行正确地分析和格式化,重新整理网页的查询结果。

  我们还用刚才的窗体,只是要在菜单中选择“工程“-”部件“,在弹出的对话框中找到一项是:Microsoft Internet Transfer Control,选中后,在工具栏中您就会发现增添了一个显示有地球和计算机的小按钮,双击这个按钮会在窗体上加入一个 Internet Transfer实例Inet1,完成了这些步骤后,窗体应如图一所示。现在准备在实例工程中加入代码。

  Internet Transfer控件有一个事件StateChanged。这个事件的目的是当不同的操作发生时通知用户程序。例如:控件在与网络服务器链接时是一种状态,检索HTML是另一种状态。当前的状态用事件过程的State 参数来表示。在示例程序的StateChanged事件中输入如下代码:

Private Sub Inet1_StateChanged(ByVal State As Integer)

Select Case State

Case 12 '表明网络连接检索正常

stemp=Inet1.GetChunk(1024) '使用GetChunk方法从缓冲区中一次提取1024个字节的回应文本,并存放在stemp临时变量中

While stemp<>””'当仍然返回信息时

LastResult=LastResult+stemp'将整个网页的源文件代码放入LastResult变量中

stemp=Inet1.GetChunk(1024)'循环

Wend

Case 11

MsgBox "未返回搜索结果"

End Select

End Sub

尽管StateChanged事件包含了这个示例程序代码的主要部分,我们仍然需要在Command1的Click事件中加入代码,以初始化这个请求。下面就是这段代码:

`

Private Sub Command1_Click()

url = "http://search.chinese.yahoo.com/search/gb?p=" +Text1.Text

Inet1.protocol=icHTTP'指明控件协议类型

Inet1.Execute CStr(url),”GET /” '发出请求

While Inet1.StillExecuting

DoEvents

Wend

End Sub

  前面已经提到,以这种方法返回的信息包含了搜索的结果网页,同直接搜索的区别就是由于这样返回的就是源代码,暂时存储到一个临时变量中,这样一来,你既可以将返回的信息直接存储到一个文件中,另一种方法,这就是我们下面要提到的对代码的优化处理。

  什么叫对代码的优化处理呢?因为返回的结果中包含许多其他没有什么用处的修饰,比如表格、banner、menta等等信息,而这些信息并不是我们需要的,去掉这些信息,只保留对我们来说有用的结果,这就是优化。那么怎样优化呢?分析HTML语法您就会看到,许多信息都是包含在一些关键词之间。举个例子:对于插入的图片来说,都是用””来结尾,这样一来就清楚了,只要把代码中所有的满足以上条件的语句删掉,这样代码中就不会出现直接图片信息,我们参考以下的一段代码:

Public Function picFilter(downCode)'定义一个过滤图片信息的过程

Dim pStart As Long, pStop As Long

Dim pString1 As String, pString2 As String

pString1 = " 0 Then '如果代码中有图片信息的话

pStop = InStr(pStart, downCode, pString2) + 1 '从上面找的起始部位开始找到第一个用于结束图片信息的”>”

Do While pStart <> 0 '只要仍旧有图片信息

Mid(downCode, pStart, pStop - pStart) = Space(pStop - pStart) '将代码中的图片信息用空格代替,实现删除效果

pStart = InStr(pStop, downCode, pString1)'重复上面的过程,删除其他的图片信息

If pStart = 0 Then Exit Do '没有图片信息后,退出循环

pStop = InStr(pStart, downCode, pString2, 1) + 1

Loop

picFilter=downCode '将处理过后的代码返回过程函数

End Function

接下来只要使用

lastResult=picFilter lastResult

就实现了对临时变量中搜索结果代码的图片信息去除工作,以此类推,很容易去掉诸如””开始,以“”结束,而在“” 和接下来的第一个“<”之间的部分是该主题的简单描述,这样我们可以用下面的代码来将雅虎搜索结果代码中的有用信息提炼起来:

Public Function yahooFilter(downCode)

Dim sString1 As String, sString2 As String, sString3 As String

Dim sStart As Long, sStop As Long

Dim string1 As String, string2 As String, lastString as string

sString1 = "
  • "

    sString2 = ""

    sString3 = "<"

    sStart = InStr(downCode, sString1)'取得第一条主题信息的起始位置

    Do While sStart <> 0

    sStop = InStr(sStart, downCode, sString2)

    string1 = Mid(downCode, sStart + 4, sStop - sStart) '将第一条主题信息存放在string1变量中

    sStart = InStr(sStop, downCode, sString1) '从第一条主题信息的结束部位开始查找该主题的简单描述

    sStart = sStop + 4

    sStop = InStr(sStart, downCode, sString3) '取得该主题描述部分的结束位置

    If sStop = sStart Then '判断只有主题而没有描述的信息

    string2 = ""

    ElseIf sStop <> sStart Then

    string2 = Mid(downCode, sStart, sStop - sStart - 1) '取出主题描述部分

    End If

    lastString = lastString + "

    " + string1 + string2 '将提炼的结果存放在临时变量中

    sStart = InStr(sStop, downCode, sString1)'重新定位下一条信息的起始位置

    Loop'循环

    yahooFilter = lastString'

    End Function


    经过了上面复杂的提炼,然后将提炼的结果写到一个网页文件中,然后调用浏览器显示,会出现整整齐齐的结果,象图二一样:

      返回头来我们看一下现在比较流行的搜索软件,比如 SearchX98、Crazysearch、Inforian Quest 99,无论他们说明写的再好,也跳不出上面所说的原理,但他们各自有自己的一些独特之处,比如SearchX98 能够连续搜索多个引擎,其实就是发出一条搜索指令后,程序本身连续在各个搜索引擎发出搜索指令,将返回的结果经过简单的处理生成一个页面,其他的内容搜索更是最简单的直接发出搜索指令而已。而对于 Crazysearch,你只要打开注册表,就会发现其中文搜索只能搜索中文雅虎,英文只能搜索Excite,但号称注册版本能够搜索1000条记录,其实您只要分析一下雅虎的搜索代码就会发现,其中有一个关键词是 “n=”,代表一次搜索返回的结果数目;另外一个是“b=”,代表从第几条记录开始显示,就这两个关键词起到了这么重大的作用,但Crazysearch的独特之处在于返回的搜索结果以表格方式排列,直观醒目。最后要推荐的是Inforian Quest 99,尽管其原理也超脱不了以上的范围(您只要打开其目录下的site子目录中的文件就清楚了),但我还是极力推荐,因为无论是从站点的数量,搜索范围的广泛,搜索的速度,结果的详细,没有能过超过Inforian Quset 99的,而且要差很多。当然基于对国产软件的支持,我们还是可以对上面的两个软件寄予厚望。同是由于本人水平有限,难免有疏漏之处,敬请大家指正。



  • 原作者:不详


    学习中请遵守法律法规,本网站内容均来自于互联网,本网站不负担法律责任
    制作 自己 网络 搜索 软件
    #1楼
    发帖时间:2016-7-9   |   查看数:0   |   回复数:0
    游客组
    快速回复