博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
solr笔记
阅读量:4293 次
发布时间:2019-05-27

本文共 1873 字,大约阅读时间需要 6 分钟。

  最近项目需要做pdf,word等的检索,一路走来有许多坑,也有许多收获,特此做一下记录.

这篇主要是对数据库的操作:

 1.solr分词器的安装,http://download.csdn.net/download/u011277123/9994225,下载后参照此篇文章 http://www.cnblogs.com/zuge/p/6001508.html

 2.在solr里面主要的就是solr的主目录下面的schema.xml,solrConfig.xml,mysql-data-config.xml,dataimport.properties

  solrConfig.xml主要配置了数据库的配置文件

  
   
       
mysql-data-config.xml
   
 

  mysql-data-config.xml具体的数据库配置

  schema.xml表对应字段的配置

id

  dataimport.properties记录最后更改的时间,与mysql-data-config.xml的查询语句对应

medi_doctors.last_index_time=2017-09-01 08\:59\:17last_index_time=2017-09-01 08\:59\:17

==================================

这篇主要是对PDF文件的操作:

1.solrconfig.xml中添加关于PDF的配置文件信息,

      <lib dir="${solr.install.dir:../../../..}/contrib/extraction/lib" regex=".*\.jar" />

      <lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-cell-\d.*\.jar" />
  <requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">
       <lst name="defaults">
                 <str name="config">data-config.xml</str>
         </lst>
  </requestHandler>
 

2.创建data-config.xml:

3:
编辑 managed-schema添加如下配置:

其中 fileName=".*.(doc)|(pdf)|(xls)|(ppt)|(docx)" 还可对这些文件进行配置。

同事杨小清的总结:

http://note.youdao.com/share/?id=cd683d660157b1dcfb8af75baebd5ece&type=note#/

我之前本地虚拟机是4.X,现在是5.X,所以分词器要选对应的版本,下面是我安装的分词器:

http://blog.csdn.net/jiangchao858/article/details/53153272

 

  

你可能感兴趣的文章
设计模式04_抽象工厂
查看>>
设计模式05_单例
查看>>
设计模式06_原型
查看>>
设计模式07_建造者
查看>>
设计模式08_适配器
查看>>
设计模式09_代理模式
查看>>
设计模式10_桥接
查看>>
设计模式11_装饰器
查看>>
设计模式12_外观模式
查看>>
设计模式13_享元模式
查看>>
设计模式14_组合结构
查看>>
设计模式15_模板
查看>>
设计模式16_策略模式
查看>>
海龟交易法则01_玩风险的交易者
查看>>
海龟交易法则02_揭秘海龟思维
查看>>
海龟交易法则03_海龟的培训
查看>>
python笔记01_高级特性和函数式编程
查看>>
python笔记02_面向对象编程和面向对象高级编程
查看>>
海龟交易法则04_像海龟一样思考
查看>>
海龟交易法则05_掌握优势
查看>>