- ·[頂]網頁優化在2010下半年因該做的 2010-04-25
- ·[頂]Katta的基本lucene結合 2010-04-25
- ·[頂]相關搜索提高高亮顯示的速度 2010-04-07
- ·[頂]dotnet lucene二元分詞匯總 2010-04-07
- ·[頂]lucene檢索技巧匯總 2010-04-07
- ·[頂]Lucene.Net Research 2010-03-25
- ·[頂]lucene的細節介紹 2010-03-25
- ·[頂]lucene自定義排序 2010-03-25
- ·[頂]閃電1瓶:Lucene的跨度查詢 2010-03-06
- ·[頂]埃里克在Apache Lucene的和Solr孵化器搜索應用 2010-03-06
- ·[頂]Lucene 3文件格式詳解 2010-02-25
- ·[頂]Lucene 2.9.0 在日本 2010-02-25
- ·[頂]lucene架了個搜索引擎 2010-02-24
- ·[頂]lucene的多個類定義 2010-02-24
- ·[頂]hibernate search同lucene的實例 2010-01-20
- ·[頂]Lucene+Paoding開發例子 2010-01-20
- ·[頂]一個小小的搜索例子,實現對某個文件夾下的文件進行搜索 2009-12-25
- ·[頂]lucene管理IndexReader和IndexWriter 2009-12-17
- ·[頂]hibernate如何搭配lucene 2.9 2009-12-17
- ·[頂]java生成靜態html技巧 2009-12-09
- ·[頂]Hadoop IPC 模型 2009-12-09
- ·[頂]Lucene 2.9.0 控制臺使用細節 2009-12-04
- ·[頂]Lucene 2.9.0 的索引細節分析 2009-11-19
- ·[頂]Lucene 2.9.0 的文件格式詳解 2009-11-19
- ·[頂]lucene如何融合compass 2009-11-19
- ·[頂]如何使用lucene2.9.0建立增量索引 2009-11-19
- ·[頂]Lucene 2.9.0 索引 word pdf等不同的媒體文件算法 2009-11-13
- ·[頂]Lucene 2.9.0 的主流分詞方法 2009-11-13
- ·[頂]HTML編碼規范在SEO中的重要性 2009-11-09
- ·[頂]Sphinx Search搜索分詞手記 2009-11-08
網頁的標題,我們應該盡量讓標題詳細些,這樣能包含更多的關鍵詞,并且用戶也更易于識別頁面所說的話題。如這篇文章,在“SEO”的后面我還加了一個中文注釋,這樣一來已經包含了兩個關鍵詞。而且不知道 SEO 是什么的人也可以知道這個詞就是“搜索引擎優化”的意思。但我們也必須把標題控制在6...[查看全文]
Katta是可擴展性、容錯機制、分布式的、并且是準實時的。Katta可以輕松構建超大服務集群,擁有自我復制功能、索引碎片機制,承載高訪問量和存儲大數據量。索引碎片可以有不同的格式, 當前只支持lucene索引文件和hadoop mapfiles.* 可以輕松構建大數據量和高負載的...[查看全文]
publicclassTermVectorTest{Analyzeranalyzer=newSimpleAnalyzer(); DirectoryramDir=newRAMDirectory();publicvoidcreateRamIndex()throwsCorruptInd...[查看全文]
using System;using System.Collections;using System.IO; using Lucene.Net.Analysis;namespace NSharp.SearchEngine.Lucene.Analysis.Cjk{ /**//** ...[查看全文]
package org.apache.lucene.search; /** * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements....[查看全文]
Lucene的起源1997年末,Doug Cutting的工作任務不是很明確,Doug Cutting已經會編寫搜索軟件,這個時候他發現Java是一個不錯的新語言,為了給自己找了個理由學習Java編程,他很自然的結合了自己會編寫搜索程序的能力,編寫了Lucene.本來Doug C...[查看全文]
首先是介紹重要的類IndexWriter,在前面的有一篇網站已經介紹過了,它有三個很重要的參數。一個是存儲文件索引的目錄,第二個是非常重要的類,它負責進行后面文件的分詞工作,就是它負責如何進行進行分詞,怎樣進行索引,第三個參數它的含義就是如果第一個參數的路徑下已經有一個同名的文件...[查看全文]
lucene能夠很方便的實現自定義排序 具體做法就是寫一個類實現SortComparatorSource這個接口 在類里返回ScoreDocComparator 實現ScoreDocComparator 的三個方法compare,sortValue,sortType就行了 pub...[查看全文]
我們一直在尋找的工具,以幫助解決遺留的源代碼剖析和一個工具,真正留下深刻印象,我們是Lucene的。 Lucene的是什么?引述他們的網站:Apache Lucene是一個高性能,全功能的文本搜索引擎庫完全由Java編寫。這是一個技術的幾乎任何應用程序需要全文搜索,特別是跨平臺使...[查看全文]
埃里克海切爾是一個開源的開發者,Apache軟件基金會的成員,和露西德想象,這是一個純粹的商業公司,在Lucene和Solr重點技術的創始人之一。 海切爾是在ApacheCon提供基于Lucene和Solr培訓,今年他與Lucene和Solr經驗的會談,他在ApacheCon即將...[查看全文]
Lucene的索引里面存了些什么,如何存放的,也即Lucene的索引文件格式,是讀懂Lucene源代碼的一把鑰匙。當我們真正進入到Lucene源代碼之中的時候,我們會發現:Lucene的索引過程,就是按照全文檢索的基本過程,將倒排表寫成此文件格式的過程。 Lucene的搜索過程,...[查看全文]
在過去的Lucene的當試圖使用Lucene 2.9.0應用程序,首先,Lucene的2.9.0有必要重新編譯應用程序獲得。我可能有兼容性問題,如果暴露在編譯錯誤發現那里的Javadoc 2.9必須參照申請固定。 除了眾多的錯誤修復2.9,新特點如下: 通過管理每一個搜尋和一個高...[查看全文]
還用lucene架了個搜索引擎,對pdf進行全文搜索(聯合pdfbox)。核心類是一個Agent,使用開源的庖丁中文分詞器代碼:QUOTE:package gov.jsgs.ssgs.service;import gov.jsgs.ssgs.form.PdfForm;import...[查看全文]
索引文件里的文件命名有什么規律 引用_9.cfs _9.cfx segments_k segments.gen Java代碼 privatefinalsynchronizedStringnewSegmentName(){ return'_'+Integer.toString(se...[查看全文]
以下的代碼是根據api幫助文檔作出的一個簡單實例,在應用方面可以實現創建索引,搜索,過濾和高亮的功能。 整體的環境為:spring2.5.6,hibernate3.3.1,struts2.0.8,lucene2.4.1 第一步,首先是web.xml配置文件,由于使用了ssh2的架...[查看全文]
一個小小的搜索例子,實現對某個文件夾下的文件進行搜索這里只有主要代碼,整個project在附件中,導入到MyEclipse中時根據自己的情況修改配置文件中paoding-dic-home.properties的地址,當然,前提是你必須有庖丁解牛的字典,在頁面搜索“項目”,會出現結...[查看全文]
一個小小的搜索例子,實現對某個文件夾下的文件進行搜索這里只有主要代碼,整個project在附件中,導入到MyEclipse中時根據自己的情況修改配置文件中paoding-dic-home.properties的地址,當然,前提是你必須有庖丁解牛的字典,在頁面搜索“項目”,會出現結...[查看全文]
實例化IndexReader是非常昂貴的操作,且它是一個線程安全的,跟索引目錄是一一對應的,通常我們只需要實例化一個IndexReader。當索引數據足夠大(G的數量級)的時候,一般把索引資源按照某種規則散列到多個文件目錄里(如:index-0,index-1,index-2.....[查看全文]
以下的代碼是根據api幫助文檔作出的一個簡單實例,在應用方面可以實現創建索引,搜索,過濾和高亮的功能。 整體的環境為:spring2.5.6,hibernate3.3.1,struts2.0.8,lucene2.4.1 第一步,首先是web.xml配置文件,由于使用了ssh2的架...[查看全文]
在某些應用中,將本該由動態頁面每次獲取客戶端請求時去調用數據的過程轉換為在添加數據時即生成為靜態頁面,對服務器的壓力,數據庫檢索的壓力,以及搜索引擎收錄,包括防止SQL注入都是由極大的好處的。常見的做法有很多種,包括web服務器啟用rewrite,io操作生成文件等等,我正好有一...[查看全文]
IPC實現RPC的一種方法,具有快速、簡單的特點。 它不像Sun公司提供的標準RPC包,基于Java序列化。 IPC無需創建網絡stubs和skeletons。 IPC中的方法調用要求參數和返回值的數據類型必須是Java的基本類型,String和Writable接口的實現類,以及...[查看全文]
從網上下了lucene2.9.0的包,控制臺窗口中進行了研究:1)解壓縮lucene2.9.0的包后,會看到lucene-core-2.9.0.jar和lucene-demos-2.9.0.jar這兩個包2)將這兩個jar包配置到系統環境變量classpath中3)打開一個控制臺...[查看全文]
利用 Lucene,在創建索引的工程中你可以充分利用機器的硬件資源來提高索引的效率。當你需要索引大量的文件時,你會注意到索引過程的瓶頸是在往磁盤上寫索引文件的過程中。為了解決這個問題, Lucene 在內存中持有一塊緩沖區。但我們如何控制 Lucene 的緩沖區呢?幸運的是,Lu...[查看全文]
Jakarta Lucene是用Java寫成的,同時有很多團體正在默默的用其他的程序語言來改寫它。如果這些新的版本想和Jakarta Lucene兼容,就需要一個與具體語言無關的Lucene索引文件格式。本文正是試圖提供一個完整的與語言無關的Jakarta Lucene 1.3索...[查看全文]
高亮器可以截取一段文本(生成摘要),并且讓關鍵字高亮顯示(通過指定前綴與后綴實現,因為是在網頁中顯示,指定 “font color=’red’”,“/font”,就會在網頁中顯示為紅色)。相關度1相關度是文檔的得分2得分受關鍵字在文檔中出現的位置和次數等影響3利用boost影響l...[查看全文]
用 lucene 建立索引不可能每次都重新開始建立,而是按照新增加的記錄,一次次的遞增建立索引的IndexWriter類,有三個參數 IndexWriter writer = new IndexWriter(path, new StandardAnalyzer(),isEmpty...[查看全文]
因為lucene索引的時候是將String型的信息建立索引的,所以這里必須是將word/pdf/html等文件的內容轉化問字符型。 lucene的jar包自己去下載。 首先是建立索引的代碼: public class TextFileIndexer {public static ...[查看全文]
1. 基本介紹:paoding :Lucene中文分詞“庖丁解牛” Paoding Analysisimdict :imdict智能詞典所采用的智能中文分詞程序mmseg4j : 用 Chih-Hao Tsai 的 MMSeg 算法 實現的中文分詞器ik :采用了特有的“正向迭代...[查看全文]
規范化的Html代碼對一個網站有諸多好處,比如:改版方便、代碼容易維護、代碼量小、網站打開速度快、適合更多人群閱讀等,這里就不一一列舉。單從seo優化的角度看,規范化的Html代碼更有利用搜索引擎排名。但是很多站長卻沒有認識到這一點,影響網站在搜索引擎上的排名。下面,我們就開始對...[查看全文]
Sphinx Search 是由俄羅斯人Andrew Aksyonoff 開發的高性能全文搜索軟件包Coreseek 在Sphinx的基礎上,對Sphinx 的中文支持進行增強,詳情見:http://www.coreseek.cn/products/ft_feature/LibM...[查看全文]