《使用C#开发搜索引擎》罗刚编著著【摘要书评在线阅读】-苏宁易购图书

云钻刮券活动规则

活动时间

活动自2017年6月2日上线，敬请关注云钻刮券活动规则更新。

活动形式

会员打开苏宁易购wap端、PC端、苏宁易购APP端方可参与活动。
活动方式为云钻刮券，每次刮券需要扣除200云钻。奖励分为无敌券和店铺云券两种，100%刮出无敌券，最低2元。店铺券由店铺提供，用户可以根据购物需求，在无敌券和店铺云券之间二选一。如因为网络、用户关闭等原因，造成页面关闭，导致用户没有或无法选择，系统将在5分钟内自动按照获得的无敌券面额发放到用户账户。
每人每天参与刮券次数上限为1次。活动每日限量，如用户参与时已达到活动最高上限，则不能再继续参与，次日可以继续参与。
如会员在刮券时选择了店铺云券，券发至账户后则无法再更改为平台的无敌券；如会员在刮券时选择了平台的无敌券，券发至账户后则无法再更改为店铺云券。
云钻刮券获得的不固定面值的券，会随机获得无敌券：2~2.2元、5元、10元、20元、50元的无敌券或不同面额的店铺云券。
券是否成功发放，可在“我的优惠券”中查询。

其他

如活动受政府机关指令需要停止举办的，或活动遭受严重网络攻击需暂停举办的，或者系统故障导致的其它意外问题，苏宁无需为此承担赔偿或者进行补偿。

券使用规则

不同面额的无敌券有不同的使用门槛，2~2.2元、5元、10元、20元、50元无敌券为无门槛使用，具体以实际发放券说明为准。配送方式仅限选择配送使用，不能抵扣运费部分。
用户刮券获得的店铺云券可与店铺内领取的店铺易券叠加使用。
店铺云券使用门槛等具体信息以商家在其店铺内的设置使用说明为准。
无敌券可用于单件商品的付款，也可用于购物车合并下单付款，同时支持在跨店铺订单中使用。店铺云券仅可使用在指定店铺中，注：部分店铺活动商品不支持用券，以订单实际提交为准。
云钻刮券获得的无敌券可以购买大聚惠、抢购、团购、手机专享价，但不可购买闪拍、预售、S码、名品特卖、海外购、秒杀、虚拟产品、法律规定限制产品如一段奶粉（包括但不仅限列出的商品）等、云钻加钱兑及云钻全额兑。
在购物时，点击购买后，页面会提示可使用易购券，只要点击选择易购券即可抵用扣除对应金额。云钻刮券获得无敌券或店铺云券使用时可用于抵扣商品金额，不能抵扣运费、运费险、增值服务等非商品金额。
云钻刮券获得的无敌券或店铺云券可与店铺页面领取的店铺易券叠加使用，付款时默认优先使用力度较大的店铺优惠券，如使用店铺易券后的订单金额仍然满足云钻刮券所获得店铺云券使用条件，可继续叠加使用店铺云券。（举例：店铺在页面设置满199减50元的店铺易券，同时用户在店铺刮券获得一张满20元减20元的店铺云券，如商品订单金额为200元，会员在用已使用领取的50元店铺易券情况下，仍然可以使用云钻刮券获得20元店铺云券）
云钻刮券获得的无敌券或店铺云券不得提现，不得转赠他人，不得为他人付，不得拆分使用。
一个订单最多使用6张易购券。
云钻刮券获得的有效期为：自获得之日起7天内有效（部分活动券可能存在不同有效期，具体详见“我的优惠券”内易购券有效期说明）。
在获取和使用券过程中，如果出现违规行为（如作弊领取、恶意套现、刷取信誉、虚假交易等），苏宁将取消用户的中奖资格，并有权撤销违规交易、收回易购券（含已使用的易购券及未使用的易购券）,必要时追究法律责任。
使用易购券的订单若交易未成功或发生退款及售后，在交易所使用的易购券有效期内订单取消完成的，易购券将退回用户账户，退回后的易购券有效期不变。如在使用的易购券有效期之外发生退款，所使用的券退回当天有效，过期不予退还。如发生售后退款，易购券退回当天有效，过期不予退还。

诺森文化制品专营店

商品参数

作者：罗刚编著著| 罗刚编著编| 罗刚编著译| 罗刚编著绘
出版社：清华大学出版社
出版时间：2017-11-01
版次：2
印次：2
印刷时间：2018-01-01
字数：705千字
页数：454
开本：16开
ISBN：9787302484462
版权提供：清华大学出版社

作者：罗刚编著
著：罗刚编著
装帧：平装
印次：2
定价：68.00
ISBN：9787302484462

出版社：清华大学出版社
开本：16开
印刷时间：2018-01-01
语种：中文

出版时间：2017-11-01
页数：454
外部编号：9098591
版次：2
成品尺寸：暂无

章使用C#开发搜索引擎
快速入门 1
1.1 各种搜索引擎 2
1.1.1 通用搜索 3
1.1.2 垂直搜索 3
1.1.3 站内搜索 4
1.2 搜索引擎的整体结构 4
1.3 搜索引擎的基本技术 5
1.3.1 网络爬虫 5
1.3.2 文本挖掘 5
1.3.3 全文索引 6
1.3.4 搜索语法介绍 8
1.3.5 搜索用户界面 8
1.4 C#开发快速入门 9
1.4.1 准备开发环境 9
1.4.2 基本语法 9
1.4.3 多维数组 11
1.4.4 位运算 11
1.4.5 枚举类型 12
1.4.6 面向对象 13
1.4.7 字符串 15
1.4.8 读写文件 16
1.4.9 集合类 17
1.4.10 泛型 20
1.4.11 委托和事件 21
1.4.12 lambda表达式 24
1.4.13 单元测试 24
1.4.14 扩展方法 25
1.4.15 类库 26
1.5 算法基础 26
1.5.1 双端队列 27
1.5.2 散列表 31
1.5.3 单链表 36
1.5.4 标准Trie树 37
1.5.5 二叉搜索树 39
1.5.6 三叉Trie树 41
1.5.7 平衡Trie树 46
1.6 本章小结 48
1.7 术语表 48
第2章使用C#开发网络爬虫 51
2.1 网络爬虫抓取原理 52
2.2 爬虫架构 54
2.2.1 基本架构 54
2.2.2 分布式爬虫架构 56
2.. 垂直爬虫架构 57
. 下载网页 58
..1 HTTP协议 58
..2 下载静态网页 61
.. 下载动态网页 65
2.4 线程池 73
2.5 网络爬虫的遍历与实现 75
2.6 77
2.7 连接池 78
2.8 URL地址查新 79
2.8.1 嵌入式数据库 79
2.8.2 布隆过滤器 82
2.9 抓取RSS 84
2.10 解析相对地址 86
2.11 网页更新 86
2.12 信息过滤 89
2.13 垂直行业抓取 94
2.14 抓取限制应对方法 94
2.14.1 更换IP地址 94
2.14.2 抓取需要登录的网页 98
2.14.3 抓取ASP.net网页 100
2.15 保存信息 103
2.15.1 存入数据库 103
2.15.2 存成图像 104
2.16 日志 105
2.17 本章小结 108
2.18 术语表 108
第3章索引各种格式文档 113
3.1 从HTML文件中提取信息 114
3.1.1 识别网页的编码 114
3.1.2 正则表达式 116
3.1.3 Html Agility Pack介绍 120
3.1.4 NSoup介绍 124
3.1.5 网页正文提取 124
3.1.6 结构化信息提取 137
3.1.7 查看网页的DOM结构 140
3.1.8 网页结构相似度计算 141
3.2 从非HTML文件中提取文本 143
3.2.1 TEXT文件 144
3.2.2 文件 144
3.. Office文件 146
3.2.4 Rtf文件 147
3.3 OCR 148
3.3.1 字形识别 149
3.3.2 图像二值化 149
3.4 本章小结 153
3.5 术语表 154
第4章自然语言处理 155
4.1 统计机器学习 156
4.2 协同 157
4.3 文档排重 163
4.3.1 生成SimHash 164
4.3.2 查找SimHash 166
4.3.3 用于短文本排重 170
4.4 中文关键词提取 170
4.4.1 关键词提取的基本方法 171
4.4.2 从网页中提取关键词 174
4.5 相关搜索 174
4.6 拼写检查 175
4.6.1 拼写检查的概率模型 176
4.6.2 模糊匹配问题 176
4.6.3 英文拼写检查 180
4.6.4 中文拼写检查 183
4.7 文本摘要 184
4.7.1 文本摘要的设计 184
4.7.2 实现文本摘要技术 185
4.7.3 Lucene.net中的动态摘要 190
4.8 文本分类 191
4.8.1 自动分类的接口定义 191
4.8.2 自动分类的实现 191
4.9 自动聚类 197
4.9.1 文档相似度 197
4.9.2 K均值聚类方法 201
4.9.3 K均值实现 202
4.10 拼音转换 204
4.11 句法分析树 204
4.12 信息提取 211
4.12.1 信息提取的规则及其实现 211
4.12.2 提取地域信息 219
4.13 本章小结 221
4.14 术语表 221
第5章用C#实现中文分词 2
5.1 词 224
5.2 文本切分的基本方法 224
5.3 地名切分 226
5.3.1 地址类型标注 227
5.3.2 未登录词识别 227
5.4 有限状态机 229
5.5 查找词典算法 1
5.6 中文分词的原理 2
5.6.1 正向长度匹配法 2
5.6.2 逆向长度匹配法
5.6.3 处理未登录串 240
5.7 中文分词的流程与结构 241
5.8 切分词图 243
5.8.1 保存切分词图 243
5.8.2 生成全切分词图 247
5.9 概率语言模型的分词方法 250
5.9.1 准备数据 251
5.9.2 一元模型 252
5.9.3 N元模型 257
5.10 熵 262
5.11 未登录词识别 264
5.12 词标注 264
5.12.1 隐马尔科夫模型 266
5.12.2 实现词标注 271
5.13 本章小结 275
5.14 术语表 276
第6章 Lucene.net原理与应用 277
6.1 Lucene.net快速入门 278
6.1.1 索引文档 278
6.1.2 搜索文档 280
6.1.3 Lucene.net结构 281
6.2 Lucene.net深入介绍 282
6.2.1 索引原理 282
6.2.2 分析文本 285
6.. 遍历索引库 288
6.2.4 布尔询原 289
6.2.5 检索模型 290
6.2.6 收集相关的文档 291
6.3 索的压缩算法 296
6.3.1 变长压缩 296
6.3.2 差分编码 298
6.4 建和护索引库 299
6.4.1 设计一个简单的索引库 299
6.4.2 创建索引库 300
6.4.3 向索库添加索引文档 301
6.4.4 删除索库的索引文档 303
6.4.5 更新索库的索引文档 304
6.4.6 索引的优化与合并 304
6.5 查找索引库 305
6.5.1 布尔查询 306
6.5.2 同时查询多列 307
6.5.3 跨度查询 308
6.5.4 通配符查询 312
6.5.5 过滤 312
6.5.6 按指定列排序 313
6.5.7 查询大容量索引 318
6.5.8 函数查询 320
6.5.9 定制相似度 3
6.5.10 评价搜索结果 325
6.6 中文信息检索 325
6.6.1 Lucene.net中的中文处理 326
6.6.2 Lietu中文分词的使用 326
6.6.3 定制Tokenizer 328
6.6.4 解析查询串 329
6.6.5 实现字词混合索引 333
6.7 抓取数据库中的内容 336
6.7.1 读取数据 337
6.7.2 数据同步 338
6.8 与爬虫集成 338
6.9 概念搜索 341
6.10 本章小结 344
6.11 术语表 345
第7章实现搜索用户界面 347
7.1 搜索页面设计 348
7.1.1 用于显示搜索结果的
ASP.net 348
7.1.2 搜索结果条 351
7.1.3 搜索结果分页 351
7.1.4 设计一个简单的搜索页面 352
7.2 实现搜索接口 353
7.2.1 Lucene.net搜索接口 353
7.2.2 指定范围搜索 357
7.. 搜索页面的索引缓存与
更新 358
7.3 实现关键词高亮显示 361
7.4 实现分类统计视图 362
7.4.1 搜索结果分类统计与导航 363
7.4.2 层次树 366
7.5 相关搜索词 368
7.6 实现AJax自动完成 369
7.6.1 总体结构 370
7.6.2 服务器端处理 371
7.6.3 浏览器端处理 372
7.7 集成功能 374
7.7.1 拼写检查 374
7.7.2 再次查找 374
7.7.3 黑名单 375
7.7.4 搜索日志 376
7.8 本章小结 377
第8章使用Solr开发搜索 379
8.1 搜索服务器端 380
8.1.1 Solr的结构 380
8.1.2 启动Solr服务器 381
8.1.3 开发支持Solr的中文分词 384
8.1.4 中文的Solr 385
8.1.5 索引数据 388
8.1.6 查询功能 389
8.1.7 高亮显示 392
8.2 Solr的.NET客户端 393
8.2.1 使用Solrnet 393
8.2.2 查询 396
8.. 分类统计 397
8.2.4 ASP.NET中使用Solrnet 401
8.2.5 删除数据 405
8.2.6 从数据库索引数据 405
8.2.7 翻页 408
8.2.8 实现多分类 411
8.3 查询语法 412
8.3.1 对空格的支持 413
8.3.2 日期加权 413
8.4 索引分布 415
8.5 本章小结 417
第9章 Elasticsearch开发分
布式搜索 419
9.1 搜索集群 421
9.2 安装 422
9.3 ES的.net客户端 429
9.3.1 连接搜索服务器 429
9.3.2 创建索引 430
9.3.3 插入数据 431
9.4 查询 432
9.4.1 布尔查询 433
9.4.2 嵌套类型和嵌套查询 434
9.4.3 查询结果 437
9.4.4 过滤器 437
9.5 高亮显示 437
9.6 分页 442
9.7 本章小结 442
0章在线客服案例分析 445
10.1 使用WebSocket 446
10.2 知识库 447
10.3 自动问答 449
10.4 本章小结 453
参考资源 455

罗刚，计算机软件硕士，于吉林工业大学。2005年创立北京盈智星科技发展有限公司，2008年联合创立上海数聚软件公司。猎兔搜索创始人，当前猎兔搜索在北京和上海以及石家庄均设有研发部。带领猎兔搜索技术开发团队先后开发出猎兔中文分词系统、猎兔文本挖掘系统，智能垂直搜索系统以及网络信息监测系统等，实现互联网信息的采集、过滤、搜索和实时监测，其开发的搜索软件日用户访问量达万次以上。

《使用C#开发搜索引擎(第2版)》介绍如何以C#作为工具开发智能搜索引擎系统。

《使用C#开发搜索引擎(第2版)》是一本介绍业界热门的Lucene.Net、使用WebBrowser做爬虫以及结合Solr/ElasticSearch开发ASP.NET搜索的书籍。书中从网络爬虫抓取数据开始；然后介绍中文分词、文本排重等文本挖掘技术和搜索结果展现；介绍在线智能客服(聊天机器人)开发框架。从C#语法开始，逐渐深入，是零基础实践面向未来的智能软件开发。

对于学习复杂数据结构和自然语言处理相关应用开发也有参考价值。

查看全部评论>

服务体验

诺森使用C#开发搜索引擎罗刚编著9787302484462清华大学出版社

正版

看了又看

商品预定流程：

预约抢购流程说明：

云钻刮券

刮券规则

云钻刮券活动规则

活动时间

活动形式

其他

券使用规则

苏宁商家

搜索店内商品

商品分类

诺森文化制品专营店

售后保障

最近浏览

猜你喜欢

服务体验

诺森使用C#开发搜索引擎罗刚编著9787302484462清华大学出版社

正版

看了又看

商品预定流程：

预约抢购流程说明：

云钻刮券

刮券规则

云钻刮券活动规则

活动时间

活动形式

其他

券使用规则

苏宁商家

搜索店内商品

商品分类

计算机/网络排行榜

诺森文化制品专营店

售后保障

最近浏览

猜你喜欢