且构网

分享程序员开发的那些事...
且构网 - 分享程序员编程开发的那些事

是否有用于 Lucene 的 HTML 分析器/标记器?

更新时间:2023-02-26 12:26:54

我假设您实际上并不想索引 HTML 标签.如果是这种情况,您可以首先使用 Apache Tika 从 HTML 中提取文本.然后就可以在 Lucene 中索引文本了.

I'm assuming that you don't actually want to index the HTML tags. If that's the case, you can first extract text from HTML using Apache Tika. Then you can index the text in Lucene.