本文共 1873 字,大约阅读时间需要 6 分钟。
最近项目需要做pdf,word等的检索,一路走来有许多坑,也有许多收获,特此做一下记录.
这篇主要是对数据库的操作:
1.solr分词器的安装,http://download.csdn.net/download/u011277123/9994225,下载后参照此篇文章 http://www.cnblogs.com/zuge/p/6001508.html
2.在solr里面主要的就是solr的主目录下面的schema.xml,solrConfig.xml,mysql-data-config.xml,dataimport.properties
solrConfig.xml主要配置了数据库的配置文件
mysql-data-config.xml
mysql-data-config.xml具体的数据库配置
schema.xml表对应字段的配置
id
dataimport.properties记录最后更改的时间,与mysql-data-config.xml的查询语句对应
medi_doctors.last_index_time=2017-09-01 08\:59\:17last_index_time=2017-09-01 08\:59\:17
==================================
这篇主要是对PDF文件的操作:
1.solrconfig.xml中添加关于PDF的配置文件信息,
<lib dir="${solr.install.dir:../../../..}/contrib/extraction/lib" regex=".*\.jar" />
<lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-cell-\d.*\.jar" /> <requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler"> <lst name="defaults"> <str name="config">data-config.xml</str> </lst> </requestHandler>2.创建data-config.xml:
3:
编辑 managed-schema添加如下配置:
其中 fileName=".*.(doc)|(pdf)|(xls)|(ppt)|(docx)" 还可对这些文件进行配置。
同事杨小清的总结:
http://note.youdao.com/share/?id=cd683d660157b1dcfb8af75baebd5ece&type=note#/
我之前本地虚拟机是4.X,现在是5.X,所以分词器要选对应的版本,下面是我安装的分词器:
http://blog.csdn.net/jiangchao858/article/details/53153272