Lucene
aus Wikipedia, der freien Enzyklopädie
Lucene | |
---|---|
Basisdaten | |
Entwickler: | Apache Software Foundation |
Aktuelle Version: | 2.3.2 (6. Mai 2008) |
Betriebssystem: | Cross-platform |
Kategorie: | Such und Index API. |
Lizenz: | Apache Software License |
Deutschsprachig: | Nein |
Website: | lucene.apache.org |
Lucene ist eine Open-Source-Java-Bibliothek zum Erzeugen und Durchsuchen von Text-Indizes. Mit ihrer Hilfe lassen sich Volltextsuchen für beliebige Textinhalte implementieren. Lucene wurde auf viele Programmiersprachen portiert, darunter Perl, C#, C++, Python, Ruby und PHP. Lucene ist Teil des Apache Software Foundation-Projekts.
Die Bibliothek setzt sich aus zwei Hauptbestandteilen zusammen:
- Eine Komponente erzeugt den Index, wobei diesem beliebige Textdokumente hinzugefügt werden.
- Eine Query Engine durchsucht diesen Index.
Neben diesen grundlegenden Eigenschaften verfügt Lucene über eine reichhaltige Auswahl zusätzlicher Funktionen und Tools, welche durch die Open-Source-Community aktiv weiterentwickelt werden.
Durch die hohe Performanz und Skalierbarkeit kann Lucene für beliebige Projektgrößen und Anforderungen eingesetzt werden.
[Bearbeiten] Projekte, die Lucene einsetzen
- Die Entwicklungsumgebung Eclipse verwendet Lucene bei der Suche durch die Hilfefunktion, die mehrere Tausend Seiten Text beinhaltet.
- Das Dokumentenmanagementsystem Alfresco setzt ebenso wie MyCoRe Lucene bei der Suche durch das Repository ein. Große Mengen von Metadaten und Text in Dokumenten können damit durchsucht werden.
- Wikipedia setzt Lucene für die Volltextsuche ein.
- CoreMedia, ein Hersteller von Standard-Software für Content-Management-Systeme (CMS) und Digital Rights Management (DRM), liefert Lucene bis zur Version 4.2 von CoreMedia CMS als Referenzlösung zur Suche mit. Damit ist Lucene derzeit ein zentraler Bestandteil des Government Site Builder, der durch Beschluss der Initiative BundOnline 2005 sukzessive für alle wichtigen Ministerien des Bundes eingesetzt wird.
- Recht für Deutschland - Ein nahezu komplettes Archiv der deutschen Rechtsprechung mit mehr als einer Million Seiten.
- PortalU - Umweltportal Deutschland - Das Umweltportal Deutschland setzt Lucene ein, um Websites und Datenbanken von Behörden in Deutschland nach Umweltinformationen zu durchsuchen.
- PANGAEA ist ein Informationssystem für geowissenschaftliche Daten des Alfred-Wegener-Instituts und des MARUM an der Universität Bremen
- CNET im Rahmen der Produktdatensuche und für andere redaktionelle Inhalte
- Eine ausführlichere Liste von Lucene-Nutzern im Lucene-Wiki
[Bearbeiten] Software, die Lucene einsetzt
- das Desktop-Suchprogramm Beagle benutzt eine Übersetzung von Lucene nach C#, welche DotLucene genannt wird, als Indexer.
- das Desktop-Suchprogramm Strigi benutzt eine C++-Portierung namens CLucene
- Nutch ist eine vollständige Suchmaschine, welche Lucene verwendet.
- Red-Piranha ist eine weitere auf Lucene basierende Suchmaschine. Sie ist sofort einsetzbar und über eine grafische Benutzeroberfläche, per Kommandozeile oder als Tomcat-Web-Applikation verfügbar. Zudem besitzt sie die Fähigkeit zu "lernen", wonach der Benutzer sucht.
- regain gibt es in zwei Versionen: die Desktop-Suche und die Server-Suche.
- GLScube bzw. GLS³, ein semantisches Dateisystem, nutzt eine C++-Konversion von Lucene für die Indizierung.
- WebGate Anywhere ist ein Content-Management-System der Firma Innovationgate, das Lucene als Indexer benutzt.
- IES2, der CMS-Server von Sitepark generiert Lucene-Indices, die unter anderem von Lösungen für kommunale Callcenter (siehe auch Einheitliche Behördenrufnummer) ausgelesen werden.
- DataObjects.NET ist ein Object-Relational-Mapping-Framework der Firma X-Tensive, das Lucene als Volltextsuchmaschine benutzt.
- Scalix ist eine E-Mail Collaboration Suite mit Weboberfläche unter Tomcat und seit Version 11 Lucene als Suchmaschine verwendet
- Nuxeo EP ist ein Enterprise Content Management System das Lucene als Indexer benutzt.
- ScandioLucene ist eine Suchmaschinen-Implementierung auf der Basis von Apache Lucene bestehend aus IndexServer, SearchServer und diversen ClientBibliotheken
- panFMP ist ein Framework für die Erstellung von Metadaten-Portalen. Lucene wird für die Suche in geharvesteten Metadaten verwendet. panFMP wurde besonders für Geodateninfrastrukturen entwickelt, weshalb Lucene durch besonders performante Trie-basierte Range-Queries erweitert wurde.
- Apache Jackrabbit ist die Referenzimplementierung des Java Content Repository (Java Specification Request 170)