通過程序自動的讀取其它網站網頁顯示的信息,類似於爬蟲程序。比方說我們有一個系統,要提取BaiDu網站上歌曲搜索排名。分析系統在根據得到的數據進行數據分析。為業務提供參考數據。
為了完成以上的需求,我們就需要模擬瀏覽器瀏覽網頁,得到頁面的數據在進行分析,最後把分析的結構,即整理好的數據寫入數據庫。那麼我們的思路就是:
1、發送HttpRequest請求。
2、接收HttpResponse返回的結果。得到特定頁面的html源文件。
3、取出包含數據的那一部分源碼。
4、根據html源碼生成HtmlDocument,循環取出數據。
5、寫入數據庫。
程序如下:
//根據Url地址得到網頁的html源碼
private string GetWebContent(string Url)
{
string strResult="";
try
{
HttpWebRequest request = (HttpWebRequest)WebRequest.Create(Url);
//聲明一個HttpWebRequest請求
request.Timeout = 30000;
//設置連接超時時間
request.Headers.Set("Pragma", "no-cache");
HttpWebResponse response = (HttpWebResponse)request.GetResponse();
Stream streamReceive = response.GetResponseStream();
Encoding encoding = Encoding.GetEncoding("GB2312");
StreamReader streamReader = new StreamReader(streamReceive, encoding);
strResult = streamReader.ReadToEnd();
}
catch
{
MessageBox.Show("出錯");
}
return strResult;
}
為了使用HttpWebRequest和HttpWebResponse,需填名字空間引用
using System.Net;
以下是程序具體實現過程:
private void button1_Click(object sender, EventArgs e)
{
//要抓取的URL地址
string Url = "http://list.mp3.baidu.com/topso/mp3topsong.html?id=1#top2";
//得到指定Url的源碼
string strWebContent = GetWebContent(Url);
richTextBox1.Text = strWebContent;
//取出和數據有關的那段源碼
int iBodyStart = strWebContent.IndexOf("", iTableStart);
string strWeb = strWebContent.Substring(iTableStart, iTableEnd - iTableStart + 8);
//生成HtmlDocument
WebBrowser webb = new WebBrowser();
webb.Navigate("about:blank");
HtmlDocument htmldoc = webb.Document.OpenNew(true);
htmldoc.Write(strWeb);
HtmlElementCollection htmlTR = htmldoc.GetElementsByTagName("TR");
foreach (HtmlElement tr in htmlTR)
{
string strID = tr.GetElementsByTagName("TD")[0].InnerText;
string strName = SplitName(tr.GetElementsByTagName("TD")[1].InnerText, "MusicName");
string strSinger = SplitName(tr.GetElementsByTagName("TD")[1].InnerText, "Singer");
strID = strID.Replace(".", "");
//插入DataTable
AddLine(strID, strName, strSinger,"0");
string strID1 = tr.GetElementsByTagName("TD")[2].InnerText;
string strName1 = SplitName(tr.GetElementsByTagName("TD")[3].InnerText, "MusicName");
string strSinger1 = SplitName(tr.GetElementsByTagName("TD")[3].InnerText, "Singer");
//插入DataTable
strID1 = strID1.Replace(".", "");
AddLine(strID1, strName1, strSinger1,"0");
string strID2 = tr.GetElementsByTagName("TD")[4].InnerText;
string strName2 = SplitName(tr.GetElementsByTagName("TD")[5].InnerText, "MusicName");
string strSinger2 = SplitName(tr.GetElementsByTagName("TD")[5].InnerText, "Singer");
//插入DataTable
strID2 = strID2.Replace(".", "");
AddLine(strID2, strName2, strSinger2,"0");
}
//插入數據庫
InsertData(dt);
dataGridView1.DataSource = dt.DefaultView;
}
2009年11月8日 星期日
轉貼 http://www.cnblogs.com/hesen/archive/2009/04/06/1430061.html
2009年11月2日 星期一
2009年10月26日 星期一
重設mysql密碼
1. 停止mysqld
# killall mysqld2.
# mysqld -u root --skip-grant-tables & Starting mysqld daemon with databases from /var/lib/mysql # mysql Welcome to the MySQL monitor. Commands end with ; or \g. Your MySQL connection id is 3 Server version: 5.0.77 Source distribution Type 'help;' or '\h' for help. Type '\c' to clear the buffer. mysql>3.進入mysql後執行下列命令 new password 自行更改為新密碼
use mysql;
UPDATE user SET password=password('new password') where user='root';
FLUSH PRIVILEGES;
2009年10月18日 星期日
C# 擷取網頁資料
private void button1_Click(object sender, EventArgs e)
{
//1
WebRequest ws = HttpWebRequest.Create("http://localhost/table.htm");
Stream st = ws.GetResponse().GetResponseStream();
StreamReader sr = new StreamReader(st, Encoding.GetEncoding("big5"));
textBox1.Text = sr.ReadToEnd();
//2
Match m = Regex.Match(textBox1.Text,"<tr><td>(.*)</td><td>(.*)</td></tr>");
if (m.Success)
{
textBox2.Text = m.Groups[1].Value + m.Groups[2].Value;
}
}
2009年10月11日 星期日
陣列的複製與排序
將陣列裡的元素依大小排序
轉載自: http://www.w3school.com.cn/js/jsref_sort.asp 定義和用法
sort() 方法用於對數組的元素進行排序。
語法
arrayObject.sort(sortby)
參數
描述
sortby
可選。規定排序順序。必須是函數。
返回值
對數組的引用。請注意,數組在原數組上進行排序,不生成副本。
說明
如果調用該方法時沒有使用參數,將按字母順序對數組中的元素進行排序,說得更精確點,是按照字符編碼的順序進行排序。要實現這一點,首先應把數組的元素都轉換成字符串(如有必要),以便進行比較。
如果想按照其他標準進行排序,就需要提供比較函數,該函數要比較兩個值,然後返回一個用於說明這兩個值的相對順序的數字。比較函數應該具有兩個參數 a 和 b,其返回值如下:
- 若 a 小於 b,在排序後的數組中 a 應該出現在 b 之前,則返回一個小於 0 的值。
- 若 a 等於 b,則返回 0。
- 若 a 大於 b,則返回一個大於 0 的值。
提示和註釋
註釋:您可使用負值從數組的尾部選取元素。
註釋:如果 end 未被規定,那麼 slice() 方法會選取從 start 到數組結尾的所有元素。
實例
例子 1
在本例中,我們將創建一個數組,並按字母順序進行排序:
var arr = new Array(6) arr[0] = "George" arr[1] = "John" arr[2] = "Thomas" arr[3] = "James" arr[4] = "Adrew" arr[5] = "Martin" document.write(arr + " ") document.write(arr.sort())
輸出:
George,John,Thomas,James,Adrew,Martin Adrew,George,James,John,Martin,Thomas例子 2
在本例中,我們將創建一個數組,並按字母順序進行排序:
輸出:
var arr = new Array(6) arr[0] = "10" arr[1] = "5" arr[2] = "40" arr[3] = "25" arr[4] = "1000" arr[5] = "1" document.write(arr + " ") document.write(arr.sort())
10,5,40,25,1000,1 1,10,1000,25,40,5請注意,上面的代碼沒有按照數值的大小對數字進行排序,要實現這一點,就必須使用一個排序函數:
function sortNumber(a,b) { return a - b } var arr = new Array(6) arr[0] = "10" arr[1] = "5" arr[2] = "40" arr[3] = "25" arr[4] = "1000" arr[5] = "1" document.write(arr + " ") document.write(arr.sort(sortNumber))
輸出:
10,5,40,25,1000,1 1,5,10,25,40,1000
複製陣列
複製陣列需使用slice(),如果使用 '=' 直接指定
兩個陣列的值會相同
範例一 : 使用'='
var b = new Array();
b = a;
print(a);
1,2,4,6,7,8,8;
a[0]=99999;
print(a);
99999,2,4,6,7,8,8
print(b);
99999,2,4,6,7,8,8
範例二 : 使用 slice()
var c = new Array();
c = a.slice();
print(c);
99999,2,4,6,7,8,8
a[0]=12345;
print(a);
12345,2,4,6,7,8,8
print(c);
99999,2,4,6,7,8,8
求取陣列中最大值和最小值
轉載自: 愛德華日誌
function array_min(){ // 定義求取 Array 最小值之函式
var i, min = this[0];
for (i = 1; i < this.length; i++){
if (min > this[i]) min = this[i];
}
return min;
}
Array.prototype.min = array_min; // 在 Array 原型中加入 min 函式
function array_max(){ // 定義求取 Array 最大值之函式
var i, max = this[0];
for (i = 1; i < this.length; i++){
if (max < this[i]) max = this[i];
}
return max;
}
Array.prototype.max = array_max; // 在 Array 原型中加入 max 函式
function array_min(){ // 定義求取 Array 最小值之函式
var i, min = this[0];
for (i = 1; i < this.length; i++){
if (min > this[i]) min = this[i];
}
return min;
}
Array.prototype.min = array_min; // 在 Array 原型中加入 min 函式
function array_max(){ // 定義求取 Array 最大值之函式
var i, max = this[0];
for (i = 1; i < this.length; i++){
if (max < this[i]) max = this[i];
}
return max;
}
Array.prototype.max = array_max; // 在 Array 原型中加入 max 函式
訂閱:
意見 (Atom)