徽标
联盟百科
通讯
下载应用,请到 Google Play
新! 在您的Android™设备上下载联盟百科!
安装
比浏览器更快的访问!
 

網路爬蟲

指数 網路爬蟲

网络爬虫(web crawler),也叫網路蜘蛛(spider),是一种用来自动浏览万维网的。其目的一般为编纂。 網路搜索引擎等站点通过爬蟲軟體更新自身的或其對其他網站的索引。網路爬蟲可以將自己所訪問的頁面保存下來,以便搜索引擎事後生成供用戶搜索。 爬蟲访问网站的过程会消耗目标系统资源。不少网络系统并不默许爬虫工作。因此在访问大量页面时,爬虫需要考虑到规划、负载,还需要讲“礼貌”。 不愿意被爬虫访问、被爬虫主人知晓的公开站点可以使用robots.txt文件之类的方法避免访问。这个文件可以要求只对网站的一部分进行索引,或完全不作处理。 互联网上的页面极多,即使是最大的爬虫系统也无法做出完整的索引。因此在公元2000年之前的万维网出现初期,搜索引擎经常找不到多少相关结果。现在的搜索引擎在这方面已经进步很多,能够即刻给出高质量结果。 爬虫还可以验证超連結和HTML代码,用于(参见)。.

12 关系: 万维网互联网国家超级电脑应用中心網站網頁网络搜索引擎超連結超文本傳輸協定HTMLRobots.txt搜索引擎服务器

万维网

万维网(World Wide Web),亦作「WWW」、「Web」,是一个由许多互相链接的超文本组成的系统,通过互联网访问。英國科學家蒂姆·伯纳斯-李於1989年發明了萬維網。1990年他在瑞士CERN的工作期間編寫了第一個網頁瀏覽器。網頁瀏覽器於1991年在CERN向外界發表,1991年1月開始發展到其他研究機構,1991年8月在互聯網上向公眾開放。 萬維網是資訊時代發展的核心,也是數十億人在網際網路上進行互動的主要工具。網頁主要是文本文件格式化和超文件標示語言(HTML)。除了格式化文字之外,網頁還可能包含圖片、影片、聲音和軟體元件,這些元件會在使用者的網頁瀏覽器中呈現為多媒體內容的連貫頁面。 萬維網並不等同網際網路,萬維網只是網際網路所能提供的服務其中之一,是靠着網際網路運行的一項服務。.

新!!: 網路爬蟲和万维网 · 查看更多 »

互联网

互联网(Internet),是網路與網路之間所串連成的龐大網路,這些網路以一組標準的網路TCP/IP协议族相連,連接全世界幾十億個設備,形成邏輯上的單一巨大國際網络。,它是由從地方到全球範圍內幾百萬個私人的、學術界的、企業的和政府的網络所構成,通過電子,無線和光纖網絡技術等等一系列廣泛的技術聯繫在一起。这种将计算机网络互相联接在一起的方法可称作「网络互联」,在這基础上发展出覆蓋全世界的全球性互联網絡稱互聯網,即是互相連接一起的网络。互聯網並不等同万维网(WWW),万维网只是一個基於超文本相互鏈接而成的全球性系統,且是互聯網所能提供的服務其中之一。互聯網帶有範圍廣泛的信息資源和服務,例如相互關聯的超文本文件,还有萬維網的應用,支持電子郵件的基礎設施,對等網絡,文件共享,以及IP電話服務。.

新!!: 網路爬蟲和互联网 · 查看更多 »

国家超级电脑应用中心

国家超级电脑应用中心(National Center for Supercomputing Applications,縮寫:NCSA)是美国国家科学基金会按照其超级电脑中心计划最早设立的五个中心之一,它是伊利诺伊大学香槟分校的一部分。1983年该校的电脑系的一个由领导的小组向国家科学基金会交递了一份未经批准的建议。1985年国家科学基金会宣布出资设立国家超级电脑应用中心。1986年1月该中心的首台超级电脑启用。 一开始国家超级电脑应用中心的职工的办公室分布在伊利诺伊大学香槟分校的各地,主要在贝克曼研究所的建筑中,后来才建造了一座新建筑,将所有部门集中到了这座新建筑中。这座新建筑位于校园的本部,而中心的超级电脑则依然放在该校高级计算中心的建筑中。 国家超级电脑应用中心与其它大学、高等院校、政府机关、私有公司、社群和学校合作来发现能够对这些机构有益的虚拟信息基础设施。它获得国家科学基金会、伊利诺州、伊利諾大學、工业界和其它联邦机构的资助。广义地说国家超级电脑应用中心有提供虚拟信息资源、设置虚拟信息环境和改进电脑系统的任务。.

新!!: 網路爬蟲和国家超级电脑应用中心 · 查看更多 »

網站

網站是指在萬維網上,根據一定的規則,使用HTML等工具製作的用於展示特定內容的相關網頁的集合。簡單地說,網站是一種通訊工具,就像布告欄一樣,人們可以通過網站來發布自己想要公開的資訊,或網站來提供相關的網路服務。人們可以通過網頁瀏覽器來訪問網站,獲取自己需要的資訊或者享受網路服務。 許多公司都擁有自己的網站,他們利用網站來行宣傳、發布產品資訊、招聘等等。隨著網頁製作技術的流行,很多個人也開始製作個人主頁,這些通常是製作者用來自我介紹、展現個性的地方。也有以提供網路資訊為盈利手段的網路公司,通常這些公司的網站上提供人們生活各個方面的資訊如時事新聞、旅遊、娛樂、經濟等。 在萬維網的早期,網站還只能展示單純的文本。經過幾年的發展,圖像、聲音、動畫、影片,甚至3D圖形技術開始在萬維網上流行起來,網站也慢慢地發展成我們現在看到的圖文並茂的樣子。通過動態網頁技術,用戶也可以與其他用戶或者網站管理者交流。也有一些網站提供電子郵件服務。.

新!!: 網路爬蟲和網站 · 查看更多 »

網頁

网页(web page)是一个適用於全球資訊網和網頁瀏覽器的文件,它存放在世界某个角落的某一部或一組计算机中,而这部计算机必须是与互联网相连。网页经由网址(URL)来识别与存取,当我们在网页浏览器输入网址后,经过一段复杂而又快速的程序,网页文件会被传送到用户家的计算机,然后再通过浏览器解释网页的内容,再展示给用户。是網路中的一「頁」,通常是HTML格式,但現今已經有愈來愈多、各色各樣的網頁格式和標準出現。網頁通常用圖像檔來提供圖畫。網頁要透過網頁瀏覽器來閱讀。.

新!!: 網路爬蟲和網頁 · 查看更多 »

网络搜索引擎

网络搜索引擎(web search engine)指自动从万维网搜集信息,经过一定整理以后,提供给用户进行查询的系统。.

新!!: 網路爬蟲和网络搜索引擎 · 查看更多 »

超連結

超連結(Hyperlink)是指超文本内由一文件連接至另一文件的連結。作用與論文中的參考或注釋類似,以方便讀者隨時參考某一詞彙的定義。 超連結有點像是文學作品中的參考資料列表,它可以結合電腦網路和適當的存取協定來追蹤資料的原始出處,並被儲存、檢視,或顯示為關聯文件中的一部份。 超連結中,最為通行的形式就是在全球資訊網上使用的URL。瀏覽器通常會用一些特殊的方式來顯示超連結。如不同的文字色彩、大小或樣式。而且,游標移動到超連結上時,也會轉變為手形指示出來。超連結在大部分的瀏覽器裡是顯示為加上底線的藍色字體,當這個連結已經被快取過時,則轉為紫色。當使用者觸發超連結時(例如,用滑鼠左鍵按下超連結),瀏覽器將會顯示出連結的目標。萬一,目標並非HTML檔案時,將依其檔案格式以及瀏覽器自身之外掛程式而啟動外部程式以開啟檔案。 Category:控制項 Category:全球資訊網 Category:超文字.

新!!: 網路爬蟲和超連結 · 查看更多 »

超文本傳輸協定

#重定向 超文本传输协议.

新!!: 網路爬蟲和超文本傳輸協定 · 查看更多 »

HTML

超文本标记语言(HyperText Markup Language,简称:HTML)是一种用于创建网页的标准标记语言。HTML是一种基础技术,常与CSS、JavaScript一起被众多网站用于设计令人赏心悦目的网页、网页应用程序以及移动应用程序的用户界面。网页浏览器可以读取HTML文件,并将其渲染成可视化网页。HTML描述了一个网站的结构语义随着线索的呈现,使之成为一种标记语言而非编程语言。 HTML元素是构建网站的基石。HTML允许嵌入图像与对象,并且可以用于创建交互式表单,它被用来结构化信息——例如标题、段落和列表等等,也可用来在一定程度上描述文档的外观和语义。HTML的语言形式为尖括号包围的HTML元素(如),浏览器使用HTML标签和脚本来诠释网页内容,但不会将它们显示在页面上。 HTML可以嵌入如JavaScript的脚本语言,它们会影响HTML网页的行为。网页浏览器也可以引用层叠样式表(CSS)来定义文本和其它元素的外观与布局。维护HTML和CSS标准的组织万维网联盟(W3C)鼓励人们使用CSS替代一些用于表现的HTML元素。.

新!!: 網路爬蟲和HTML · 查看更多 »

Robots.txt

robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据(Metadata,又稱元資料)。 robots.txt协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。注意robots.txt是用字符串比较来确定是否获取URL,所以目录末尾有与没有斜杠“/”表示的是不同的URL。robots.txt允许使用类似"Disallow: *.gif"这样的通配符。 其他的影响搜索引擎的行为的方法包括使用robots元数据: 这个协议也不是一个规范,而只是约定俗成的,有些搜索引擎会遵守这一规范,有些则不然。通常搜索引擎会识别这个元数据,不索引这个页面,以及这个页面的链出页面。.

新!!: 網路爬蟲和Robots.txt · 查看更多 »

搜索引擎

搜索引擎(search engine)是一种信息检索系统,旨在协助搜索存储在计算机系统中的信息。搜索结果一般被称为“hits”,通常会以表单的形式列出。搜索引擎和其他信息过载管理技术类似,可缩小信息的搜索时间、搜索范围等。网络搜索引擎是最常见、公开的一种搜索引擎,其功能为搜索万维网上储存的信息。.

新!!: 網路爬蟲和搜索引擎 · 查看更多 »

服务器

服务器(Server)指:.

新!!: 網路爬蟲和服务器 · 查看更多 »

重定向到这里:

Spider操作系统搜索引擎蜘蛛网络爬虫网络蜘蛛

传出传入
嘿!我们在Facebook上吧! »