《征服AJAX+LUCENE構建搜索引擎》 中(zhōng)文 PDF
軟件類型:國産軟件
軟件大(dà)小(xiǎo):68.21 MB
運行環境:Win9X/2000/XP/2003/
授權方式:共享版
更新日期:2010-02-24 18:12:47
軟件語言:簡體(tǐ)中(zhōng)文
軟件簡介:
征服AJAX+LUCENE構建搜索引擎這本書(shū)主要是講AJAX和JAVA相結合構建搜索引擎的技術産物(wù),目前這種技術正在開(kāi)始流行,同時這本書(shū)有一(yī)定深度,需要你有一(yī)定WEB開(kāi)發基礎和JAVA開(kāi)發背景。本書(shū)的内容很多,很值得學習一(yī)下(xià)。
下(xià)載網址:http://wj.codefans.net/x/7/200810/AJAX_sea.rar
=====================================================================
書(shū)的目錄:
=====================================================================
第一(yī)篇 搜索引擎入門
第1章 搜索引擎與信息檢索基礎
1.1 搜索引擎的曆史
1.1.1 萌芽:Archie、Gopher
1.1.2 起步:Robot(網絡機器人)的出現與Spider(網絡爬蟲)
1.1.3 發展:Excite、Galaxy、Yahoo等
1.1.4 繁榮:Infoseek、AltaVista、Google和Baidu
1.2 信息檢索系統的基本知(zhī)識
1.2.1 什麽是信息檢索系統
1.2.2 信息檢索的過程
1.2.3 傳統查找的優點和不足
1.2.4 使用索引提高檢索速度
1.2.5 倒排索引
1.2.6 評價信息檢索系統的标準
1.3 Lucene簡介
1.4 小(xiǎo)結
第二篇 Lucene開(kāi)發詳解
第2章 Lucene入門實例
2.1 實例介紹
2.1.1 實例說明
2.1.2 開(kāi)發過程
2.2 準備工(gōng)作
2.2.1 将文檔的全角标點轉換成半角标點
2.2.2 将大(dà)文檔切分(fēn)成多個小(xiǎo)文檔
2.2.3 預處理源文件的統一(yī)接口
2.3 創建Eclipse工(gōng)程
2.3.1 準備工(gōng)作
2.3.2 創建工(gōng)程并引入Lucene的JAR包
2.3.3 運行文檔預處理類
2.3.4 創建處理文檔的索引類:IndexProcessor
2.3.5 創建檢索索引的搜索類
2.4 運行效果
2.5 小(xiǎo)結
第3章 Lucene索引的建立
3.1 Document邏輯文件
3.1.1 Lucene的Document
3.1.2 爲Document添加多種Field
3.1.3 Document的内部實現
3.2 Field的内部實現
3.2.1 Field包含的類
3.2.2 Field類的構造方法
3.3 Lucene的索引工(gōng)具IndexWriter
3.3.1 IndexWriter的初始化
3.3.2 向索引添加文檔
3.3.3 限制每個Field中(zhōng)的詞條的數量
3.4 Lucene索引過程詳解
3.4.1 Lucene索引建立過程概述
3.4.2 使用addDocument方法向索引添加文檔
3.4.3 DocumentWriter的addDocument方法
3.4.4 文檔的倒排
3.4.5 對postingTable進行排序
3.4.6 将Posting信息寫入索引
3.5 索引文件格式
3.5.1 索引的segment
3.5.2 .fnm格式
3.5.3 .fdx與.fdt格式
3.5.4 .tii與.tis格式
3.5.5 deletable格式
3.5.6 複合索引格式.cfs
3.6 索引過程的優化
3.6.1 合并因子mergeFactor
3.6.2 maxMergeDocs
3.6.3 minMergeDocs
3.7 索引的合并與索引的優化
3.7.1 FSDirectory與RAMDirectory
3.7.2 使用IndexWriter來合并索引
3.7.3 索引的優化
3.8 從索引中(zhōng)删除文檔
3.8.1 索引的讀取工(gōng)具IndexReader
3.8.2 使用文檔ID号來删除特定文檔
3.8.3 使用Field信息來删除批量文檔
3.9 Lucene的同步問題
3.9.1 爲什麽要進行同步以及Lucene的同步法則
3.9.2 commit.lock與write.lock
3.10 Lucene
2.0的新類:IndexModifier類
3.11 小(xiǎo)結
第4章 Lucene的搜索
4.1 使用IndexSearcher進行搜索
4.1.1 初始化IndexSearcher
4.1.2 IndexSearcher最簡單的使用
4.1.3 IndexSearcher的多種search方法
4.2 Hits類詳解
4.2.1 Hits類的公有接口
4.2.2 效率分(fēn)析
4.2.3 Hits内部的緩存
4.2.4 Hits類的工(gōng)作原理
4.3 對搜索結果的評分(fēn)
4.3.1 文檔與詞條的向量空間
4.3.2 Lucene的文檔得分(fēn)算法
4.4 構建各種Lucene内建的Query對象
4.4.1 toString查看原子查詢
4.4.2 查詢重寫與權重
4.4.3 TermQuery詞條搜索
4.4.4 BooleanQuery布爾搜索
4.4.5 RangeQuery範圍搜索
4.4.6 PrefixQuery前綴搜索
4.4.7 PhraseQuery短語搜索
4.4.8 MultiPhraseQuery多短語搜索
4.4.9 FuzzyQuery模糊搜索
4.4.10 WildcardQuery通配符搜索
4.4.11 SpanQuery跨度搜索
4.5 第三方提供的Query對象:RegexQuery
4.6 通過QueryParser轉換用戶關鍵字
4.6.1 詞條的定義
4.6.2 QueryParser初始化
4.6.3 改變QueryParser默認的布爾邏輯
4.6.4 短語和QueryParser
4.6.5 FuzzyQuery和QueryParser
4.6.6 通配符與QueryParser
4.6.7 查找指定的Field
4.6.8 RangeQuery與QueryParser
4.6.9 QueryParser和SpanQuery
4.7 多Field搜索與多索引搜索
4.7.1 多域搜索MultiFieldQueryParser
4.7.2 MultiSearcher在多個索引上搜索
4.7.3 ParalellMultiSearcher:多線程搜索
4.7.4 Searchable和RMI
4.8 小(xiǎo)結
第5章 排序、過濾和分(fēn)頁
5.1 相關度排序
5.1.1 使用Score進行自然排序
5.1.2 Searcher的explain方法
5.1.3 通過改變boost值來改變文檔的得分(fēn)
5.2 使用Sort來排序
5.2.1 Sort簡介
5.2.2 SortField
5.2.3 按文檔得分(fēn)進行排序
5.2.4 按文檔的内部ID号來排序
5.2.5 按一(yī)個或多個Field來排序
5.2.6 改變SortField中(zhōng)的Locale信息
5.3 搜索的過濾器
5.3.1 過濾器的基本結構
5.3.2 一(yī)個簡單的Filter:建立索引
5.3.3 一(yī)個簡單的Filter:打印索引文檔信息
5.3.4 一(yī)個簡單的Filter:安全級别與過濾器代碼
5.3.5 一(yī)個簡單的Filter:在搜索時應用過濾器
5.3.6 一(yī)個簡單的Filter:總結
5.3.7 按範圍過濾RangeFilter
5.3.8 在結果中(zhōng)查詢QueryFilter
5.3.9 緩存結果:CachingWrapperFilter
5.4 翻頁問題
5.4.1 依賴于session的翻頁
5.4.2 多次查詢
5.4.3 緩存+多次查詢
5.4.4 緩存+多次查詢+數據庫
5.5 小(xiǎo)結
第6章 Lucene的分(fēn)析器
6.1 分(fēn)析
6.1.1 分(fēn)詞
6.1.2 Lucene的分(fēn)析器的結構
6.1.3 Lucene的分(fēn)析器的實現
6.2 Lucene與JavaCC
6.2.1 JavaCC簡介
6.2.2 JavaCC爲Lucene提供的分(fēn)析器腳本
6.2.3 Lucene的标準分(fēn)析器
6.2.4 标準過濾器:StandardFilter
6.2.5 大(dà)小(xiǎo)寫轉換器:LowerCaseFilter
6.2.6 忽略詞過濾器:StopFilter
6.3 分(fēn)析器的進階
6.3.1 再看StandardAnalyzer中(zhōng)的管道過濾器結構
6.3.2 長度過濾器:LengthFilter
6.3.3 PerFieldAnalyzerWrapper
6.3.4 其他
6.4 對中(zhōng)文的分(fēn)析
6.4.1 現有的中(zhōng)文分(fēn)詞方式簡介
6.4.2 中(zhōng)科院的分(fēn)詞軟件和JE分(fēn)詞
6.5 小(xiǎo)結
第三篇 Lucene相關話(huà)題
第7章 對Word、Excel
和PDF的處理
7.1 使用PDFBox處理PDF文檔
7.1.1 PDFBox的下(xià)載
7.1.2 在Eclipse中(zhōng)配置
7.1.3 使用PDFBox解析PDF内容
7.1.4 運行效果
7.1.5 與Lucene的集成
7.2 使用xpdf來處理中(zhōng)文PDF文檔
7.2.1 xpdf的下(xià)載
7.2.2 配置
7.2.3 提取中(zhōng)文
7.2.4 運行效果
7.3 使用POI來處理Excel和Word文件格式
7.3.1 對Excel的處理類
7.3.2 ExcelReader的運行效果
7.3.3 POI中(zhōng)Excel文件Cell的類型
7.3.4 對Word的處理類
7.4 使用Jacob來處理Word文檔
7.4.1 Jacob的下(xià)載
7.4.2 在Eclipse中(zhōng)配置
7.5 小(xiǎo)結
第8章 Compass:封裝了Lucene的框架
8.1 Compass簡介
8.1.1 Compass的下(xià)載
8.1.2 Compass的代碼片斷
8.2 Compass的初始配置
8.2.1 Compass的配置文件
8.2.2 将索引存放(fàng)于内存中(zhōng)
8.2.3 使用JDBC來存儲索引
8.2.4 使用連接池來存儲索引
8.2.5 加載compass.cfg.xml文件
8.3 域模型的配置
8.3.1 實體(tǐ)代碼
8.3.2 實體(tǐ)關系
8.3.3 實體(tǐ)Book的配置文件
8.3.4 通用元數據定義文件(.cmd.xml)
8.3.5 Author和Article的配置文件
8.4 使用Compass來建立索引
8.4.1 索引代碼
8.4.2 對象關系圖和運行結果
8.5 使用Compass來搜索
8.5.1 使用find()方法搜索
8.5.2 CompassHits類型
8.5.3 CompassHit類型
8.5.4 使用Lucene語法來查找
8.6 配置Analyzer和Optimizer
8.7 小(xiǎo)結
第9章 Lucene分(fēn)布式和Google
Search
API
9.1 Lucene與分(fēn)布式
9.1.1 什麽是GFS
9.1.2 爲Lucene提供分(fēn)布式的幾點設想
9.2 Google的Search
API
9.2.1 搭建環境
9.2.2 構建搜索類
9.2.3 設置查詢時的參數和查詢語法
9.2.4 運行測試
9.3 小(xiǎo)結
第四篇 網絡爬蟲Heritrix
第10章 無比強大(dà)的網絡爬蟲Heritrix
10.1 Heritrix使用入門
10.1.1 下(xià)載和運行Heritrix
10.1.2 在Eclipse裏配置Heritrix的開(kāi)發環境
10.1.3 創建一(yī)個新的抓取任務
10.1.4 設置抓取時的處理鏈
10.1.5 設置運行時的參數
10.1.6 運行抓取任務
10.1.7 Heritrix的鏡像存儲結構
10.1.8 終止抓取或終止Heritrix的運行
10.2 Heritrix的架構
10.2.1 抓取任務CrawlOrder
10.2.2 中(zhōng)央控制器CrawlController
10.2.3 Frontier鏈接制造工(gōng)廠
10.2.4 用Berkeley
DB實現的BdbFrontier
10.2.5 Heritrix的多線程ToeThread和ToePool
10.2.6 處理鏈和Processor
10.3 擴展和定制Heritrix
10.3.1 向Heritrix中(zhōng)添加自己的Extractor
10.3.2 定制Queue-assignment-policy的兩個問題
10.3.3 定制Queue-assignment-policy繼承QueueAssignmentPolicy類
10.3.4 擴展FrontierScheduler來抓取特定的内容
10.3.5 在Prefetcher中(zhōng)取消robots.txt的限制
10.4 小(xiǎo)結
第五篇 構建垂直搜索引擎
第11章 搜索引擎綜合實例:準備篇
11.1 實例簡介以及實現途徑
11.1.1 選擇網站
11.1.2 太平洋電腦網和網易手機頻(pín)道
11.1.3 分(fēn)析網站内容并準備抓取清單
11.1.4 從下(xià)拉列表獲得手機品牌首頁
11.1.5 解析手機品牌頁面
11.2 在Heritrix中(zhōng)爲pconline開(kāi)發抓取所需的定制類
11.2.1 保存所有産品的頁面和圖片
11.2.2 不保存其他無關頁面
11.2.3 開(kāi)始抓取
11.3 在Heritrix中(zhōng)爲網易手機頻(pín)道開(kāi)發抓取所需的定制類
11.3.1 分(fēn)析網易手機頻(pín)道
11.3.2 設計抓取代碼
11.4 在Eclipse中(zhōng)創建工(gōng)程結構
11.4.1 下(xià)載插件
11.4.2 在Eclipse中(zhōng)配置插件
11.4.3 創建工(gōng)程
11.4.4 設置工(gōng)程的Context
11.4.5 設定源代碼存放(fàng)和輸出路徑
11.4.6 添加Java代碼
11.4.7 添加Jar包
11.4.8 創建JSP文件
11.4.9 工(gōng)程整體(tǐ)結構一(yī)覽
11.5 設定配置文件及其相關類
11.5.1 系統屬性配置文件
11.5.2 封裝配置文件
11.6 産品詳細信息文件格式
11.7 解析網頁信息的基類Extractor
11.8 太平洋電腦網手機産品頁面Extractor
11.9 pconline産品信息運行效果測試
11.9.1 編寫測試函數
11.9.2 執行測試
11.10 網易手機頻(pín)道的産品信息運行效果
11.11 構建産品信息詞庫
11.12 數據庫與索引結構
11.12.1 定義Product類
11.12.2 确定數據庫與索引的結構
11.13 數據庫處理和索引處理
11.13.1 對數據庫進行操作
11.13.2 對索引進行操作
11.14 調用數據庫處理類和索引處理類
11.15 運行
11.16 小(xiǎo)結
第12章 使用正則表達式與HTMLParser提取網頁内容
12.1 HTML的基本知(zhī)識
12.2 JDK中(zhōng)的正則表達式提取網頁内容
12.2.1 java.util.regex包
12.2.2 正則表達式提取網頁内容實例
12.3 HTMLParser提取網頁内容
12.3.1 HTMLParser的下(xià)載
12.3.2 HTMLParser概述
12.3.3 Lexer的功能及實現
12.3.4 HTMLParser的功能及實現
12.3.5 HTMLParser實例
12.4 小(xiǎo)結
第13章 搜索引擎綜合實例:DWR
13.1 DWR的下(xià)載
13.2 DWR入門與實例演示
13.2.1 創建工(gōng)程結構
13.2.2 在web.xml中(zhōng)配置DWR
13.2.3 配置dwr.xml
13.2.4 頁面代碼
13.2.5 運行效果
13.2.6 DWR與直接使用XMLHttpRequest對象的比較
13.2.7 在DWR中(zhōng)操縱自定義的對象
13.2.8 查看DWR的輸出日志(zhì)
13.3 dwr.xml的配置
13.3.1 dwr.xml的标準結構
13.3.2 标簽與DWR自帶的converter和creator
13.3.3 标簽
13.3.4 标簽
13.3.5 另一(yī)個例子
13.4 util.js
13.4.1 調用util.js
13.4.2 使用useLoadingMessage方法顯示提示圖标
13.4.3 DWRUtil.setValue和DWRUtil.getValue
13.4.4 DWRUtil.getValues和DWRUtil.setValues
13.4.5 DWRUtil.addOptions和DWRUtil.removeAllOptions
13.4.6 DWRUtil.addRows和DWRUtil.removeAllRows
13.4.7 DWRUtil.toDescriptiveString方法
13.5 小(xiǎo)結
第14章 搜索引擎綜合實例:Web篇
14.1 配置文件
14.1.1 Spring配置文件
14.1.2 DWR配置文件
14.1.3 web.xml
14.2 各種Bean類
14.2.1 SearchResult
14.2.2 SearchResults
14.2.3 SearchRequest
14.3 SearchService的實現
14.4 SearchResultDao
14.5 前台部分(fēn)
14.5.1 搜索主頁面main.jsp
14.5.2 圖片的顯示
14.5.3 詳細信息頁面detail.jsp
14.6 問題
14.7 小(xiǎo)結
軟件類型:國産軟件
軟件大(dà)小(xiǎo):68.21 MB
運行環境:Win9X/2000/XP/2003/
授權方式:共享版
更新日期:2010-02-24 18:12:47
軟件語言:簡體(tǐ)中(zhōng)文
軟件簡介:
征服AJAX+LUCENE構建搜索引擎這本書(shū)主要是講AJAX和JAVA相結合構建搜索引擎的技術産物(wù),目前這種技術正在開(kāi)始流行,同時這本書(shū)有一(yī)定深度,需要你有一(yī)定WEB開(kāi)發基礎和JAVA開(kāi)發背景。本書(shū)的内容很多,很值得學習一(yī)下(xià)。
下(xià)載網址:http://wj.codefans.net/x/7/200810/AJAX_sea.rar
=====================================================================
書(shū)的目錄:
=====================================================================
第一(yī)篇 搜索引擎入門
第1章 搜索引擎與信息檢索基礎
1.1 搜索引擎的曆史
1.1.1 萌芽:Archie、Gopher
1.1.2 起步:Robot(網絡機器人)的出現與Spider(網絡爬蟲)
1.1.3 發展:Excite、Galaxy、Yahoo等
1.1.4 繁榮:Infoseek、AltaVista、Google和Baidu
1.2 信息檢索系統的基本知(zhī)識
1.2.1 什麽是信息檢索系統
1.2.2 信息檢索的過程
1.2.3 傳統查找的優點和不足
1.2.4 使用索引提高檢索速度
1.2.5 倒排索引
1.2.6 評價信息檢索系統的标準
1.3 Lucene簡介
1.4 小(xiǎo)結
第二篇 Lucene開(kāi)發詳解
第2章 Lucene入門實例
2.1 實例介紹
2.1.1 實例說明
2.1.2 開(kāi)發過程
2.2 準備工(gōng)作
2.2.1 将文檔的全角标點轉換成半角标點
2.2.2 将大(dà)文檔切分(fēn)成多個小(xiǎo)文檔
2.2.3 預處理源文件的統一(yī)接口
2.3 創建Eclipse工(gōng)程
2.3.1 準備工(gōng)作
2.3.2 創建工(gōng)程并引入Lucene的JAR包
2.3.3 運行文檔預處理類
2.3.4 創建處理文檔的索引類:IndexProcessor
2.3.5 創建檢索索引的搜索類
2.4 運行效果
2.5 小(xiǎo)結
第3章 Lucene索引的建立
3.1 Document邏輯文件
3.1.1 Lucene的Document
3.1.2 爲Document添加多種Field
3.1.3 Document的内部實現
3.2 Field的内部實現
3.2.1 Field包含的類
3.2.2 Field類的構造方法
3.3 Lucene的索引工(gōng)具IndexWriter
3.3.1 IndexWriter的初始化
3.3.2 向索引添加文檔
3.3.3 限制每個Field中(zhōng)的詞條的數量
3.4 Lucene索引過程詳解
3.4.1 Lucene索引建立過程概述
3.4.2 使用addDocument方法向索引添加文檔
3.4.3 DocumentWriter的addDocument方法
3.4.4 文檔的倒排
3.4.5 對postingTable進行排序
3.4.6 将Posting信息寫入索引
3.5 索引文件格式
3.5.1 索引的segment
3.5.2 .fnm格式
3.5.3 .fdx與.fdt格式
3.5.4 .tii與.tis格式
3.5.5 deletable格式
3.5.6 複合索引格式.cfs
3.6 索引過程的優化
3.6.1 合并因子mergeFactor
3.6.2 maxMergeDocs
3.6.3 minMergeDocs
3.7 索引的合并與索引的優化
3.7.1 FSDirectory與RAMDirectory
3.7.2 使用IndexWriter來合并索引
3.7.3 索引的優化
3.8 從索引中(zhōng)删除文檔
3.8.1 索引的讀取工(gōng)具IndexReader
3.8.2 使用文檔ID号來删除特定文檔
3.8.3 使用Field信息來删除批量文檔
3.9 Lucene的同步問題
3.9.1 爲什麽要進行同步以及Lucene的同步法則
3.9.2 commit.lock與write.lock
3.10 Lucene
2.0的新類:IndexModifier類
3.11 小(xiǎo)結
第4章 Lucene的搜索
4.1 使用IndexSearcher進行搜索
4.1.1 初始化IndexSearcher
4.1.2 IndexSearcher最簡單的使用
4.1.3 IndexSearcher的多種search方法
4.2 Hits類詳解
4.2.1 Hits類的公有接口
4.2.2 效率分(fēn)析
4.2.3 Hits内部的緩存
4.2.4 Hits類的工(gōng)作原理
4.3 對搜索結果的評分(fēn)
4.3.1 文檔與詞條的向量空間
4.3.2 Lucene的文檔得分(fēn)算法
4.4 構建各種Lucene内建的Query對象
4.4.1 toString查看原子查詢
4.4.2 查詢重寫與權重
4.4.3 TermQuery詞條搜索
4.4.4 BooleanQuery布爾搜索
4.4.5 RangeQuery範圍搜索
4.4.6 PrefixQuery前綴搜索
4.4.7 PhraseQuery短語搜索
4.4.8 MultiPhraseQuery多短語搜索
4.4.9 FuzzyQuery模糊搜索
4.4.10 WildcardQuery通配符搜索
4.4.11 SpanQuery跨度搜索
4.5 第三方提供的Query對象:RegexQuery
4.6 通過QueryParser轉換用戶關鍵字
4.6.1 詞條的定義
4.6.2 QueryParser初始化
4.6.3 改變QueryParser默認的布爾邏輯
4.6.4 短語和QueryParser
4.6.5 FuzzyQuery和QueryParser
4.6.6 通配符與QueryParser
4.6.7 查找指定的Field
4.6.8 RangeQuery與QueryParser
4.6.9 QueryParser和SpanQuery
4.7 多Field搜索與多索引搜索
4.7.1 多域搜索MultiFieldQueryParser
4.7.2 MultiSearcher在多個索引上搜索
4.7.3 ParalellMultiSearcher:多線程搜索
4.7.4 Searchable和RMI
4.8 小(xiǎo)結
第5章 排序、過濾和分(fēn)頁
5.1 相關度排序
5.1.1 使用Score進行自然排序
5.1.2 Searcher的explain方法
5.1.3 通過改變boost值來改變文檔的得分(fēn)
5.2 使用Sort來排序
5.2.1 Sort簡介
5.2.2 SortField
5.2.3 按文檔得分(fēn)進行排序
5.2.4 按文檔的内部ID号來排序
5.2.5 按一(yī)個或多個Field來排序
5.2.6 改變SortField中(zhōng)的Locale信息
5.3 搜索的過濾器
5.3.1 過濾器的基本結構
5.3.2 一(yī)個簡單的Filter:建立索引
5.3.3 一(yī)個簡單的Filter:打印索引文檔信息
5.3.4 一(yī)個簡單的Filter:安全級别與過濾器代碼
5.3.5 一(yī)個簡單的Filter:在搜索時應用過濾器
5.3.6 一(yī)個簡單的Filter:總結
5.3.7 按範圍過濾RangeFilter
5.3.8 在結果中(zhōng)查詢QueryFilter
5.3.9 緩存結果:CachingWrapperFilter
5.4 翻頁問題
5.4.1 依賴于session的翻頁
5.4.2 多次查詢
5.4.3 緩存+多次查詢
5.4.4 緩存+多次查詢+數據庫
5.5 小(xiǎo)結
第6章 Lucene的分(fēn)析器
6.1 分(fēn)析
6.1.1 分(fēn)詞
6.1.2 Lucene的分(fēn)析器的結構
6.1.3 Lucene的分(fēn)析器的實現
6.2 Lucene與JavaCC
6.2.1 JavaCC簡介
6.2.2 JavaCC爲Lucene提供的分(fēn)析器腳本
6.2.3 Lucene的标準分(fēn)析器
6.2.4 标準過濾器:StandardFilter
6.2.5 大(dà)小(xiǎo)寫轉換器:LowerCaseFilter
6.2.6 忽略詞過濾器:StopFilter
6.3 分(fēn)析器的進階
6.3.1 再看StandardAnalyzer中(zhōng)的管道過濾器結構
6.3.2 長度過濾器:LengthFilter
6.3.3 PerFieldAnalyzerWrapper
6.3.4 其他
6.4 對中(zhōng)文的分(fēn)析
6.4.1 現有的中(zhōng)文分(fēn)詞方式簡介
6.4.2 中(zhōng)科院的分(fēn)詞軟件和JE分(fēn)詞
6.5 小(xiǎo)結
第三篇 Lucene相關話(huà)題
第7章 對Word、Excel
和PDF的處理
7.1 使用PDFBox處理PDF文檔
7.1.1 PDFBox的下(xià)載
7.1.2 在Eclipse中(zhōng)配置
7.1.3 使用PDFBox解析PDF内容
7.1.4 運行效果
7.1.5 與Lucene的集成
7.2 使用xpdf來處理中(zhōng)文PDF文檔
7.2.1 xpdf的下(xià)載
7.2.2 配置
7.2.3 提取中(zhōng)文
7.2.4 運行效果
7.3 使用POI來處理Excel和Word文件格式
7.3.1 對Excel的處理類
7.3.2 ExcelReader的運行效果
7.3.3 POI中(zhōng)Excel文件Cell的類型
7.3.4 對Word的處理類
7.4 使用Jacob來處理Word文檔
7.4.1 Jacob的下(xià)載
7.4.2 在Eclipse中(zhōng)配置
7.5 小(xiǎo)結
第8章 Compass:封裝了Lucene的框架
8.1 Compass簡介
8.1.1 Compass的下(xià)載
8.1.2 Compass的代碼片斷
8.2 Compass的初始配置
8.2.1 Compass的配置文件
8.2.2 将索引存放(fàng)于内存中(zhōng)
8.2.3 使用JDBC來存儲索引
8.2.4 使用連接池來存儲索引
8.2.5 加載compass.cfg.xml文件
8.3 域模型的配置
8.3.1 實體(tǐ)代碼
8.3.2 實體(tǐ)關系
8.3.3 實體(tǐ)Book的配置文件
8.3.4 通用元數據定義文件(.cmd.xml)
8.3.5 Author和Article的配置文件
8.4 使用Compass來建立索引
8.4.1 索引代碼
8.4.2 對象關系圖和運行結果
8.5 使用Compass來搜索
8.5.1 使用find()方法搜索
8.5.2 CompassHits類型
8.5.3 CompassHit類型
8.5.4 使用Lucene語法來查找
8.6 配置Analyzer和Optimizer
8.7 小(xiǎo)結
第9章 Lucene分(fēn)布式和Google
Search
API
9.1 Lucene與分(fēn)布式
9.1.1 什麽是GFS
9.1.2 爲Lucene提供分(fēn)布式的幾點設想
9.2 Google的Search
API
9.2.1 搭建環境
9.2.2 構建搜索類
9.2.3 設置查詢時的參數和查詢語法
9.2.4 運行測試
9.3 小(xiǎo)結
第四篇 網絡爬蟲Heritrix
第10章 無比強大(dà)的網絡爬蟲Heritrix
10.1 Heritrix使用入門
10.1.1 下(xià)載和運行Heritrix
10.1.2 在Eclipse裏配置Heritrix的開(kāi)發環境
10.1.3 創建一(yī)個新的抓取任務
10.1.4 設置抓取時的處理鏈
10.1.5 設置運行時的參數
10.1.6 運行抓取任務
10.1.7 Heritrix的鏡像存儲結構
10.1.8 終止抓取或終止Heritrix的運行
10.2 Heritrix的架構
10.2.1 抓取任務CrawlOrder
10.2.2 中(zhōng)央控制器CrawlController
10.2.3 Frontier鏈接制造工(gōng)廠
10.2.4 用Berkeley
DB實現的BdbFrontier
10.2.5 Heritrix的多線程ToeThread和ToePool
10.2.6 處理鏈和Processor
10.3 擴展和定制Heritrix
10.3.1 向Heritrix中(zhōng)添加自己的Extractor
10.3.2 定制Queue-assignment-policy的兩個問題
10.3.3 定制Queue-assignment-policy繼承QueueAssignmentPolicy類
10.3.4 擴展FrontierScheduler來抓取特定的内容
10.3.5 在Prefetcher中(zhōng)取消robots.txt的限制
10.4 小(xiǎo)結
第五篇 構建垂直搜索引擎
第11章 搜索引擎綜合實例:準備篇
11.1 實例簡介以及實現途徑
11.1.1 選擇網站
11.1.2 太平洋電腦網和網易手機頻(pín)道
11.1.3 分(fēn)析網站内容并準備抓取清單
11.1.4 從下(xià)拉列表獲得手機品牌首頁
11.1.5 解析手機品牌頁面
11.2 在Heritrix中(zhōng)爲pconline開(kāi)發抓取所需的定制類
11.2.1 保存所有産品的頁面和圖片
11.2.2 不保存其他無關頁面
11.2.3 開(kāi)始抓取
11.3 在Heritrix中(zhōng)爲網易手機頻(pín)道開(kāi)發抓取所需的定制類
11.3.1 分(fēn)析網易手機頻(pín)道
11.3.2 設計抓取代碼
11.4 在Eclipse中(zhōng)創建工(gōng)程結構
11.4.1 下(xià)載插件
11.4.2 在Eclipse中(zhōng)配置插件
11.4.3 創建工(gōng)程
11.4.4 設置工(gōng)程的Context
11.4.5 設定源代碼存放(fàng)和輸出路徑
11.4.6 添加Java代碼
11.4.7 添加Jar包
11.4.8 創建JSP文件
11.4.9 工(gōng)程整體(tǐ)結構一(yī)覽
11.5 設定配置文件及其相關類
11.5.1 系統屬性配置文件
11.5.2 封裝配置文件
11.6 産品詳細信息文件格式
11.7 解析網頁信息的基類Extractor
11.8 太平洋電腦網手機産品頁面Extractor
11.9 pconline産品信息運行效果測試
11.9.1 編寫測試函數
11.9.2 執行測試
11.10 網易手機頻(pín)道的産品信息運行效果
11.11 構建産品信息詞庫
11.12 數據庫與索引結構
11.12.1 定義Product類
11.12.2 确定數據庫與索引的結構
11.13 數據庫處理和索引處理
11.13.1 對數據庫進行操作
11.13.2 對索引進行操作
11.14 調用數據庫處理類和索引處理類
11.15 運行
11.16 小(xiǎo)結
第12章 使用正則表達式與HTMLParser提取網頁内容
12.1 HTML的基本知(zhī)識
12.2 JDK中(zhōng)的正則表達式提取網頁内容
12.2.1 java.util.regex包
12.2.2 正則表達式提取網頁内容實例
12.3 HTMLParser提取網頁内容
12.3.1 HTMLParser的下(xià)載
12.3.2 HTMLParser概述
12.3.3 Lexer的功能及實現
12.3.4 HTMLParser的功能及實現
12.3.5 HTMLParser實例
12.4 小(xiǎo)結
第13章 搜索引擎綜合實例:DWR
13.1 DWR的下(xià)載
13.2 DWR入門與實例演示
13.2.1 創建工(gōng)程結構
13.2.2 在web.xml中(zhōng)配置DWR
13.2.3 配置dwr.xml
13.2.4 頁面代碼
13.2.5 運行效果
13.2.6 DWR與直接使用XMLHttpRequest對象的比較
13.2.7 在DWR中(zhōng)操縱自定義的對象
13.2.8 查看DWR的輸出日志(zhì)
13.3 dwr.xml的配置
13.3.1 dwr.xml的标準結構
13.3.2 标簽與DWR自帶的converter和creator
13.3.3 标簽
13.3.4 标簽
13.3.5 另一(yī)個例子
13.4 util.js
13.4.1 調用util.js
13.4.2 使用useLoadingMessage方法顯示提示圖标
13.4.3 DWRUtil.setValue和DWRUtil.getValue
13.4.4 DWRUtil.getValues和DWRUtil.setValues
13.4.5 DWRUtil.addOptions和DWRUtil.removeAllOptions
13.4.6 DWRUtil.addRows和DWRUtil.removeAllRows
13.4.7 DWRUtil.toDescriptiveString方法
13.5 小(xiǎo)結
第14章 搜索引擎綜合實例:Web篇
14.1 配置文件
14.1.1 Spring配置文件
14.1.2 DWR配置文件
14.1.3 web.xml
14.2 各種Bean類
14.2.1 SearchResult
14.2.2 SearchResults
14.2.3 SearchRequest
14.3 SearchService的實現
14.4 SearchResultDao
14.5 前台部分(fēn)
14.5.1 搜索主頁面main.jsp
14.5.2 圖片的顯示
14.5.3 詳細信息頁面detail.jsp
14.6 問題
14.7 小(xiǎo)結