博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Solr Dataimport配置
阅读量:6427 次
发布时间:2019-06-23

本文共 2282 字,大约阅读时间需要 7 分钟。

参考资料:

https://cwiki.apache.org/confluence/display/solr/Uploading+Structured+Data+Store+Data+with+the+Data+Import+Handler

https://wiki.apache.org/solr/DataImportHandler

http://wiki.apache.org/solr/TikaEntityProcessor

Solr 通过Dataimport可以对各种文件类型(包括邮件)建索引,也可以对关系型数据库建索引。

前提依赖Jar包

Dataimport从关系型数据库建索引时,依赖以下jar包,这些Jar包位于Solr安装包下面的solr-6.1.0\dist\目录下目录下:

本实例是SQL Server关系型数据库,所以还要添加sqljdbc42.jar到指定路径下。

Dataimport为普通文件建索引时,依赖以下jar包,这些jar包位于Solr安装包的solr-6.1.0\contrib\extraction\lib目录下

 

 

这些jar包在本机上的统一存放位置为:/var/lib/solr/lib/

在solrconfig.xml文件中添加以上jar包的引用。

<lib dir="/var/lib/solr/lib/" regex=".*\.jar" />

一、配置solrconfig.xml

tika-data-config.xml
uuid

二、配置tika-data-config.xml

在文件solrconfig.xml同级目录下,新建文件tika-data-config.xml,tika-data-config.xml文件中的内容配置如下:

 
文件实体属于简介 

一个简单的实体处理程序,可以用于枚举标准文件系统中的文件列表,它不需要使用DataSource.属性如下:

  • fileName:(必填) 用正则表达式来标记文件名
  • baseDir:(必填) 基础目录,绝对路径.
  • recursive:是否递归文件列表,默认为false.
  • excludes:不包括的文件名的正则表达式
  • newerThan:日期参数,格式: (yyyy-MM-dd HH:mm:ss),它也可以是一个数学日期,如('NOW-3DAYS'),其中的单引号是必填的.也可以是一个有效的变量格式,如(${var.name}).
  • olderThan :日期格式,规则同上.
  • biggerThan:整型参数.
  • smallerThan:整型参数.
  • rootEntity:它一般情况下都是false(除非你只索引文件名).直属于<document>下的实体才是根实体.那就意味着,根实体发出的每一行都会被solr/lucene创建.但是在这种情况下,我们不希望一个文件对应一个文档(document).我们希望生成一个文档(document),每一行的发出都是由下面的实体'x'来完成的.因为实体'f'包含了rootEntity=false,直属实体f下的实体就变成了一个根实体.
  • dataSource:数据源
 
错误记录

【错误一】 org.apache.zookeeper.KeeperException$NoNodeException: KeeperErrorCode = NoNode for /configs/collection2/dataimport.properties

【解决方法】在配置文件conf/目录下添加一个空的dataimport.propertie文件。

 

 

转载于:https://www.cnblogs.com/saratearing/p/5740017.html

你可能感兴趣的文章
Microsoft AJAX Library Cheat Sheet(5): Number和Error类型的扩展
查看>>
批处理设置Java环境变量/命令行设置Java环境变量
查看>>
POJ 3580 SuperMemo(splay)
查看>>
AfxGetMainWnd函数
查看>>
WebView增加一个水平Progress,位置、长相随意
查看>>
easyui messager alert 三秒后自动关闭提示
查看>>
带你Python入门,踏进人工智能领域
查看>>
core data 基础操作
查看>>
手机共享电脑网络
查看>>
ORM框架Hibernate (四) 一对一单向、双向关联映射
查看>>
20140616 科技脉搏 -最大颠覆来自创业公司与边缘产业
查看>>
UVAoj 11324 - The Largest Clique(tarjan + dp)
查看>>
offsetLeft, offsetTop以及postion().left , postion().top有神马区别
查看>>
visual studio 中GIT的用法
查看>>
数据库中触发器before与after认识
查看>>
手动露天广场和立方体
查看>>
随机选择
查看>>
【Java并发编程三】闭锁
查看>>
分布式事务中遇到的 “与基础事务管理器的通信失败”的解决方法
查看>>
让你的Git水平更上一层楼的10个小贴士
查看>>