若無法顯示,請點選此處觀看網頁              本郵件若造成您的困擾,請連結電子報訂閱取消。
 
2012.04.13

NO.23

週   報

 
 
編輯的話|
資訊爆炸年代的檢索技術與變革。  
五南選書|
資訊檢索導論  
延伸閱讀|
《網通科技專利導論》《網路與物流分析》《網路概論》《研究資料如何找?Google It!》《隨機網路-理論與案例研究》  
近期好書|
《可畏的對稱-現代物理美的探索》《六堂量子資訊課》  
名家觀點|
《資訊檢索導論》/作者序 
最新訊息|
把握最後機會!2012觀光旅遊書展:環遊世界不是夢,想當導遊必看!  
   
 

資訊爆炸年代的檢索技術與變革。

 

文/Little 5

過去資訊檢索往往為某些專業人員才能從事的一項活動,例如圖書館館員、律師助理和其他專業搜索人員等。然而,在如此資訊爆炸的年代,每天使用搜索引擎或是收發電子郵件時,實際上都在從事資訊檢索活動。資訊檢索技術之研發已經替代傳統的資料庫式搜索,以疾快的腳步加速發展。

  最典型的例子就是關聯資料庫,其用途是用來保存公司的產品清單和人事記錄。當然,嚴格意義上的非結構化資料在實際中並不存在。例如文本資料常被認為是典型的非結構化資料,但是如果考慮文本中隱含的語言結構資訊,那麼它們也不能算是「非結構化資料」了。另一方面,即使承認這種語言結構屬於無明顯語義的結構,現實中的大部分文本仍然都有其他結構,如文本的標題、段落、註腳等,這些結構往往通過顯式的標記來體現(如網頁中的格式標籤)。有時也把網頁這種具有格式標記的資料稱為「半結構化資料」(semistructured data)。資訊檢索往往也支援這種半結構化資料的搜索。

  另一方面,就資訊檢索角度切入,Web搜尋引擎於檢索因無法集中控制網頁內容發佈機制,使其搜尋引擎和檢索所發布的內容帶來巨大的挑戰。網頁製作者可能會採用數十種專業語言或自然語言進行網頁撰寫,因此就需要更多不同之詞幹還原工具及其他語言處理方法。由於Web發布開放至今,已使得網頁以極其驚人的規模不斷增長,也在許多重要方面顯示出不同特性。
 
  當用戶端(如瀏覽器)發送一個http請求(http request)給Web伺服器(web server)。瀏覽器指定某個URL (Universal Resource Locator,統一資源定位符),例如http://www.stanford.edu/home/atoz/contact.html。該URL中的字串http指定了用於傳輸資料的協定。字串www.stanford.edu被稱為域(domain),它給出了網頁層次結構(通常是Web伺服器上某個檔系統的層次結構的映射)的根目錄位置。而/home/atoz/contact.html所顯示的是層次結構的路徑,其中contact.html包含了位於www.stanford.edu的Web伺服器應答請求而返回的資訊。這個檔採用HTML語言編碼,其中包含鏈結和內容資訊(本例中的內容資訊是Stanford University的聯繫資訊)以及在瀏覽器中顯示的格式化規則。因此,這種http請求允許我們獲得網頁的內容,而這些內容在採集和索引文檔時非常有用。

  第一代瀏覽器的設計者確保了人們很容易就能閱讀某個URL對應的原始HTML標記文檔,這樣新手就無需太多的學習或者經驗便可以創建自己的HTML內容,甚至可以選擇喜歡的網頁作為樣例直接學習。與此同時,瀏覽器的第二個特點是會忽略其不能解析的內容,這個特點使得Web內容的創建和使用能夠被迅速擴散開來。有人可能會擔心這樣做將導致大量不相容的HTML語言出現,但是事實並非如此。實際上這大大促進了業餘網頁製作者的熱情。他們可以自由地實驗並從新建網頁中學習,而不必擔心一個簡單的語法錯誤會導致整個系統崩潰。在Web上發佈網頁已經不是少數訓練有素的編程人員的特權,而是上億普通線民參與的活動。對於大部分的使用者和需求來說,Web已經迅速成為提供和消費各種資訊的重要場所,這些資訊包括從疑難雜症到搭車時刻表的任何內容。

  綜觀而論,相關技術人才的培育著實為現階段資訊發展的首要責任,長期致力於理工教育生根的理念不曾停歇。僅將本書介紹予資工、資管、圖書資訊與電腦相關專業的大學生或研究所學生所推薦閱讀。透過不斷發展,並與其他領域、技術所不斷融合,《資訊檢索導論》一書在深度上超過了大部分傳統教材,並由國外學界及業界知名權威共同編撰,介紹資訊檢索技術的同時,亦深入介紹了其背後所依賴的原理。因此,不僅為資訊檢索領域的初階教科書,還能滿足對該領域進行深入研究的讀者。

 
 

Christopher D. Manning Prabhakar Raghavan Hinrich Schütze◎原著/王斌◎譯/柯皓仁◎校訂


定價720

放入購物車

1. 大學院校資訊檢索課程教科書,世界級權威著作。 2. 內容包括IR基礎入門與產業重點整哩,配合實務範例編輯,清晰完整。 3. 資工、資管、圖書資訊、電腦、統計、法律與醫學、資訊學、語言或其他工程學科之大學或研究所必備。

 

資訊檢索導論


 

資訊檢索(Information Retrieval, 簡寫IR)係指搜尋資訊的科學,如在檔案中搜尋資訊、搜尋文本、搜尋描述檔案中資料的資料,或是在資料庫中進行搜尋,無論是何種獨立資料庫或是普遍被使用之網路資料庫皆可稱之為資訊檢索,IR已成為一個不斷發展並和其他領域、技術不斷融合的學科。

  特別補充近年來受到廣泛關注的新內容,比如:基於語言建模的資訊檢索模型、基於機器學習的排序方法、檢索結果的Snippet生成、聚類標籤生成、XML檢索、搜索廣告、網頁作弊等等。此外,書中每章尾的「參考文獻及補充讀物」一節也給出了相關技術的最新進展。本書與傳統教材的明顯不同之處,在於加入了文本分類/聚類技術的介紹,事實上這些技術已經成為當代資訊檢索不可分割的一部分。..more
   
   
   
 
 
         
 

網通科技專利導論
張適宇 陳奕廷 汪岱錡 林傳維
定價:450元

 

網路與物流分析
陳惠國著
定價:450元

 

網路概論
王達 編著、胡凱智校訂
定價:680元

 

研究資料如何找?Google It!
童國倫、潘奕萍著
定價:650元

 

隨機網路-理論與案例研究
薄喬萍編著
定價:480元

 
                     
 

徐一鴻(A. Zee) 、 張禮◎譯/ 蔡淑惠◎校閱

放入購物車

 
可畏的對稱-現代物理美的探索
 
   
 
   

愛因斯坦和他的追隨者們,通過一個世紀的努力建構了近代物理學基礎理論的框架。將對稱性作為指導原則,並深信這是揭示自然基礎設計秘密的鑰匙……

 
   
本書不拘泥於講述科學知識的細節,而是通過敍述科學家們如何一步步地窺探「上帝」設計世界的原則,將現代物理學的整體架構呈現給讀者。在這一點上,科學與藝術是相近的,但她們追求的層次不同,手段也不同。藝術靠感官直覺體驗自然(包括社會)的表觀的美、形象的美;而科學則靠抽象思維(主要是數學)體驗自然(包括社會)的本質的美、抽象的美。有趣的是,不論抽象的美還是形象的美都講究平衡與對稱。事實上,對稱已成為現代科學(尤其是物理學)的基本美學原則之一,因為對稱意味著不變,不變意味著規律,而在千變萬化的自然現象中揭示不變的東西(規律)正是科學的本質追求。從這種意義上講,對稱是可畏的,更是可愛的。..more
 
         
 
六堂量子資訊課
 

Valerio Scarani Lynn Chua & Shi Yang Liu ◎著/徐立義◎譯

放入購物車

 
 
 
 

量子資訊科學泛指量子密碼、量子計算、量子電腦、量子通訊等等領域,量子世代正緩慢但堅定地向我們走來,正引領一場知識革命,悄無聲息地翻轉世界。

 
 
你不可不知的量子學基本概念

  •首先,量子系統可顯現真正的隨機行為。不是所有的事,可以用你相信的古典物理,就可以預測或解釋的。玩弄一下愛因斯坦的名言,看來上帝真的玩骰子。

  •其次,糾纏的確能在量子複合系統中發生:即使對個別的系統,其特性沒有明確定義,只有複合系統才可以。糾纏系統能顯示出令人驚異的相關性,所有傳統方式都無法解釋。

  •從以上所述,如今我們知道自然本身就很詭異,而在量子物理中,有違反直覺的現象。這也是為什麼量子物理的觀念難以理解的原因,而這也是為什麼學術圈外,量子物理也廣為人知:自然的詭異之處,不僅遠遠超出聰明的理論學家所能解釋,而也是整個宇宙的基本特徵。

  •從本書中,你也許注意到在量子物理中,有些些奇異的觀念。就是因為他的「奇異之處」,才能在像是量子密碼,以及亂數產生器等有趣的領域中,有可能的應用。科幻小說中提到的一些現象,像是複製與遙傳,在量子物理中皆為真實。量子物理不僅讓我們洞視自然運行之道,也為未來可及的科技,開啟另一扇可能的窗。..more
 
         

《資訊檢索導論》

Christopher D. Manning Prabhakar Raghavan Hinrich Schütze
(本文節自《資訊檢索導論》作者序)
研究表明,直到20世紀90年代,大多數人還是首選通過別人而不是使用資訊檢索系統來獲取資訊。當然,那時候大多數人也往往通過旅行社來安排自己的行程。然而,在過去的十年中,資訊檢索效果的不斷優化已經使Web搜索引擎的品質達到了一個新的水準,大多數用戶在大部分情況下都對搜索的結果感到滿意。Web搜索引擎已經成為用戶發現和獲取資訊的常規和首選管道。以統計資料為證,2004年美國Pew研究中心的一項網際網路調查 (Fallows 2004)結果表明,有92%的網際網路用戶認為網際網路是人們獲取日常資訊的良好管道。令很多人驚訝的是,資訊檢索也從一個以學術研究為主的領域,搖身一變而成為人們賴以獲取日常資訊的工具背後的基礎學科。本書主要介紹該學科的核心理論基礎,既考慮研究生科研的需求,也兼顧了高年級本科生學習的需求。

  但是,資訊檢索並非始於Web。在應對資訊存取的各種挑戰的過程中,資訊檢索逐漸發展成為一門給各種形式的內容搜索提供原理性方法的學科。資訊檢索起初主要面向科學文獻和館藏記錄,但是很快就擴展到其他形式的內容,特別是新聞記者、律師、醫生等特定領域專業人士所需的資訊內容。資訊檢索中的很多學術研究都圍繞上述內容展開,而其實踐方面則主要是為公司或政府部門提供非結構化資訊的獲取服務,這些領域的研究和實踐構成了本書的主要內容。

  然而,近年來資訊檢索革新的主要推動力卻來自萬維網,因為網路上聚集了數以千萬計的網路用戶發佈的內容。如果這些內容不能及時被發現、標注和分析,並為有需求的人們提供相關的、全面的資訊,那麼它們的存在將毫無意義。到20世紀90年代末,很多人逐漸意識到,由於Web的規模呈指數級增長,繼續給整個Web建立索引很快會變得毫無可能。但是,卓越的科學創新、一流的工程水準、日益低廉的電腦硬體價格及Web搜索商業化基礎的壯大等一系列因素,促成了當今主流搜索引擎的產生與成長。這些搜索引擎一天之內能夠完成對數十億網頁的數億次搜索請求,並且每次搜索都能夠在亞秒級時間內返回高品質的結果。
 

 

【主題書展】
【重要公告】
詐騙集團猖獗,本公司網路訂書付款方式如訂單所示,無其他額外付款途徑。若讀者接獲不明人士以本公司名義索款,請務必來電27055066#843、#889求證。或撥打165防詐騙專線,本公司已向165防詐專線申訴。
【得獎訊息】
【得獎訊息】
【得獎訊息】
【得獎訊息】
【得獎訊息】
【得獎訊息】
【新聞書評】
五南文化首頁取消/訂閱電子報| Copyright (c)2009 Wu-Nan Book Inc. All Rights Reserved.
客服專線:02-27055066  客服傳真:02-27066100 地址:106台北市和平東路二段339號4樓