由于此商品库存有限,请在下单后15分钟之内支付完成,手慢无哦!
100%刮中券,最高50元无敌券,券有效期7天
活动自2017年6月2日上线,敬请关注云钻刮券活动规则更新。
如活动受政府机关指令需要停止举办的,或活动遭受严重网络攻击需暂停举办的,或者系统故障导致的其它意外问题,苏宁无需为此承担赔偿或者进行补偿。
[正版]搜索引擎技术与应用开发 李群 清华大学出版社 计算机科学与技术搜索引擎高等学校
¥ ×1
书名: | 搜索引擎技术与应用开发 |
出版社: | 清华大学出版社 |
出版日期 | 2020 |
ISBN号: | 9787302560036 |
本书从教学的角度出发,全面地阐述了搜索引擎的原理和实践,包括:搜索引擎的基本原理与技术、搜索引擎的数据结构和搜索引擎的爬虫、信息处理技术、信息检索技术、信息检索评价技术、多媒体信息检索技术以及搜索引擎开发技术。 在教材的编写过程中,对基本概念、基础知识的介绍力求做到简明扼要;各章相互配合,又自成体系附有小结和习题,同时还有相关的实验及应用技术。 本书适合高等院校计算机科学与技术专业及相关专业的高年级学生和研究生阅读参考,也适合相关领域的工程技术人员参阅。 |
李群,北京林业大学教师。讲授的主要课程有:操作系统,数据库,Linux应用等。 主编教材:《搜索引擎基础教程》,2010年,清华大学出版社;《搜索引擎原理与实践》,2008年,北京邮电大学出版社。 |
|
对基本概念、基础知识的介绍做到简明扼要;各章相互配合并附有小结和习题,同时还有相关的实验。 |
|
第1章搜索引擎概述/1 1.1搜索引擎的概念1 1.1.1搜索引擎基本概念1 1.1.2搜索引擎的原理2 1.2搜索引擎的历史与发展趋势2 1.2.1搜索引擎的发展史3 1.2.2搜索引擎的发展趋势7 1.3搜索引擎的分类10 1.3.1全文搜索引擎11 1.3.2目录索引搜索引擎11 1.3.3元搜索引擎12 1.3.4分布式搜索引擎13 1.4搜索引擎的关键技术13 1.4.1信息收集和存储技术13 1.4.2信息预处理技术13 1.4.3信息索引技术14 1.5主要搜索引擎介绍15 1.5.1谷歌(Google)搜索15 1.5.2雅虎(Yahoo!)搜索19 1.5.3百度(Baidu)搜索21 1.5.4360搜索24 小结25 思考题26 第2章搜索引擎基础/28 2.1搜索引擎的体系结构28 2.1.1搜索器28 2.1.2索引器30 2.1.3检索器31 2.1.4用户接口31 2.2搜索引擎的工作原理32 2.2.1网页搜集32 2.2.2网页处理33 2.2.3查询服务35 2.3搜索引擎的数据结构36 2.3.1存储结构36 2.3.2信息库38 2.3.3文本索引39 2.3.4词典39 2.3.5采样表39 2.3.6前向索引40 2.3.7后向索引40 2.4元搜索引擎41 2.4.1元搜索引擎的基本构成41 2.4.2元搜索引擎的分类43 2.4.3常用元搜索引擎介绍44 2.4.4元搜索引擎的特点45 2.4.5主要技术指标46 2.5个性化搜索引擎47 2.5.1系统模块及其功能48 2.5.2个性化搜索引擎的关键技术49 2.6智能搜索引擎50 2.6.1智能搜索引擎特征50 2.6.2智能搜索引擎主要技术51 小结52 思考题53 搜索引擎技术与应用开发目录第3章网页抓取技术/55 3.1搜索引擎爬虫55 3.1.1网络爬虫工作原理55 3.1.2开源网络爬虫简介56 3.1.3网页信息的抓取58 3.2搜索引擎爬虫的关键技术60 3.2.1网页抓取优先策略60 3.2.2深度优先策略61 3.2.3广度优先策略62 3.2.4最佳优先策略63 3.2.5不重复抓取策略64 3.2.6网页重访策略68 3.2.7网页抓取提速策略69 3.2.8Robots协议70 小结72 思考题73 第4章网络爬虫开发技术/74 4.1网络爬虫的常用技术74 4.1.1网络爬虫工作流程74 4.1.2网络请求技术75 4.1.3网页抓取技术80 4.1.4其他处理技术84 4.2正则表达式87 4.2.1什么是正则表达式87 4.2.2正则表达式基础知识88 4.2.3正则表达式常见函数90 4.2.4正则表达式的简单使用92 4.3网络爬虫常用框架95 4.3.1Scrapy爬虫框架95 4.3.2Crawley爬虫框架100 4.3.3PySpider爬虫框架101 4.3.4Portia爬虫框架106 4.4网络爬虫实现技术107 4.4.1爬虫伪装技术107 4.4.2爬虫定向爬取技术110 4.4.3博客类爬虫的实现技术112 小结114 思考题115 第5章网页信息预处理技术/117 5.1网页信息结构化117 5.1.1网页结构化的目标117 5.1.2建立DOM树118 5.1.3网页内容的获取120 5.2文本处理121 5.2.1词法分析121 5.2.2中文分词技术122 5.2.3无用词删除127 5.2.4词干提取128 5.2.5索引词选择135 5.2.6词典136 5.3PageRank算法137 5.3.1什么是PageRank137 5.3.2PageRank的算法138 5.3.3PageRank的特性140 5.3.4PageRank的迭代计算141 5.3.5网页级别的优化142 小结144 思考题145 第6章信息索引技术/146 6.1顺排检索146 6.1.1表展开法146 6.1.2逻辑树展开法149 6.1.3BF算法155 6.1.4KMP算法156 6.1.5BM算法158 6.2倒排检索161 6.2.1倒排索引161 6.2.2倒排文档162 6.2.3逆波兰表达式164 6.2.4检索指令表的生成166 6.2.5检索实施167 6.3后缀数组索引168 6.3.1后缀树概念168 6.3.2后缀树原理168 6.3.3后缀树存储170 6.3.4后缀树的构造170 6.3.5后缀数组172 6.3.6后缀数组生成算法173 6.4文本压缩技术174 6.4.1基本概念174 6.4.2统计方法174 6.4.3字典方法180 6.4.4倒排文档压缩186 小结188 思考题190 第7章信息查询与评价技术/192 7.1检索模型192 7.1.1经典模型192 7.1.2代数模型197 7.2检索方法200 7.2.1布尔检索200 7.2.2加权检索201 7.2.3全文检索202 7.2.4超文本检索206 7.3查询服务209 7.3.1查询器原理209 7.3.2搜索引擎检索过程210 7.3.3检索结果排序213 7.3.4自动摘要生成216 7.4相关性219 7.4.1相关性的特征219 7.4.2相关性类别220 7.4.3相关性模型222 7.5搜索引擎评价指标225 7.5.1有效性225 7.5.2查全率和查准率225 7.5.3其他评价指标226 小结228 思考题230 第8章多媒体信息检索技术/231 8.1多媒体的基本概念231 8.1.1多媒体及多媒体技术231 8.1.2音频信息与检索特征233 8.1.3图形图像信息与检索特征236 8.1.4视频信息与检索特征239 8.1.5多媒体信息检索242 8.2多媒体数据压缩246 8.2.1多媒体压缩原理246 8.2.2多媒体压缩编码247 8.3多媒体内容的理解248 8.3.1分割248 8.3.2特征提取249 8.3.3分类250 8.4多媒体信息检索的关键技术250 8.4.1信息模型250 8.4.2检索技术251 8.4.3查询语言251 8.4.4数据压缩和恢复251 8.4.5存储管理252 8.4.6同步技术252 小结252 思考题254 第9章搭建基于Lucene的搜索引擎/255 9.1实例简介255 9.1.1搜索引擎的体系结构255 9.1.2网页搜集257 9.1.3网页预处理257 9.1.4查询服务258 9.2环境搭建与配置259 9.2.1JDK 1.6的安装与配置260 9.2.2Eclipse的安装与配置262 9.2.3Tomcat的安装与配置271 9.2.4Heritrix的安装与配置274 9.3网页搜集282 9.3.1设置Heritrix抓取任务282 9.3.2修改Heritrix源代码288 9.3.3抓取网页292 9.4网页预处理295 9.4.1原始网页的处理295 9.4.2建立简单的索引315 9.4.3为实例建立索引322 9.5查询服务327 9.5.1结构设计327 9.5.2查询设计327 9.5.3预搜索设计334 9.5.4页面设计335 9.5.5网页快照实现342 9.5.6部署到Tomcat344 小结346 实验346 参考文献/348 |
网络改变了人们的思维,改变了人们信息的获取方式,搜索改变了人们的生活,人们通过搜索引擎技术,筛选网络上的文字、声音、图像,通过超文本、超链接技术,对信息进行有效的获取和使用。搜索引擎的出现就好像是航船的指南针,引领着人们在网络中寻找自己想要的信息。不论是办公室工作人员,还是在校学习的学生,或者是科学研究人员,使用搜索引擎查询信息几乎成为每日必做的一件事情,搜索引擎已经成为人们的一项新的生活内容。 为了适应未来发展的需要,各个高校先后都开设了搜索引擎这门课程。我们编写本书的目的就是要系统地讨论和研究搜索引擎的基本理论,让读者学会构建自己的搜索引擎。 本书较为系统地阐述了搜索引擎的基本概念以及相关的技术,总共分为9章。第1章全面地介绍了搜索引擎的概念、搜索引擎的发展、分类及建立搜索引擎的关键技术。第2章讨论了搜索引擎的体系结构、工作原理,搜索引擎的数据结构、元搜索引擎以及智能搜索引擎的概念。第3章介绍了网页抓取技术,主要内容包括搜索引擎爬虫的工作原理、爬虫使用的关键技术和Robots协议。第4章介绍了用Python语言实现网络爬虫的开发技术,主要内容包括网络爬虫的常用技术、正则表达式、网络爬虫常用框架、网络爬虫实现技术。第5章介绍了网页信息预处理技术,主要内容有网页信息结构化、文本处理技术和PageRank算法。第6章介绍了信息索引技术,主要内容有顺排检索、倒排检索、后缀数组索引和文本压缩技术。第7章介绍了信息查询与评价技术,主要内容有信息检索的模型、常用的检索方法、查询服务以及相关性和评价指标查全率和查准率等。第8章介绍了多媒体信息检索技术,主要内容有多媒体的基本概念、多媒体数据压缩、多媒体内容的理解以及多媒体信息检索的关键技术。第9章介绍了基于Lucene的搜索引擎开发技术,主要内容有搜索引擎开发实例简介、环境的搭建与配置、网页搜集技术、网页预处理技术和查询服务。 本书可帮助读者对搜索引擎原理及开发技术有一个全面的了解和掌握,同时为更加深入地学习和研究搜索引擎打下良好的基础。希望本书的出版能够对搜索引擎的设计者、Web站点的管理员以及广大读者有所帮助,也希望它成为搜索引擎和信息检索有关领域学生学习的参考书。 本书是作者在多年的教学基础上,参考以前出版的教材和若干资料整理而成的。在编写过程中,对基本概念、基础知识的介绍做到简明扼要;各章相互配合并附有小结和思考题,同时还有相关的实验。建议本课程为40学时,其中讲课30学时,实验10学时。 本书由李群、袁津生共同编写。其中,李群编写了本书的第1~7章,袁津生编写了本书的第8章和第9章。全书的校阅和统稿由李群完成。由于编者水平有限,书中难免有疏漏和不当之处,请读者批评指正。
编者2020年8月 |
亲,大宗购物请点击企业用户渠道>小苏的服务会更贴心!
亲,很抱歉,您购买的宝贝销售异常火爆让小苏措手不及,请稍后再试~
非常抱歉,您前期未参加预订活动,
无法支付尾款哦!
抱歉,您暂无任性付资格