Inhaltsverzeichnis

Über den Autor

Korbinian Habereder

Zuletzt geändert:13.01.2025

KubernetesDockerBetriebEntwicklungDigitalisierung

13.01.2025

Wie Elasticsearch die Suche und Analyse von Daten revolutioniert.Elasticsearch: Die leistungsstarke Suchlösung für deine Daten.

Elasticsearch ist eine Open-Source-Such- und Analyse-Engine, die auf Apache Lucene basiert. Sie ermöglicht es, große Mengen an Daten in Echtzeit zu durchsuchen und zu analysieren. In diesem Artikel werfen wir einen genaueren Blick auf Elasticsearch, erkunden seine wichtigsten Funktionen und zeigen dir anhand von Praxisbeispielen, wie du Elasticsearch in dein Projekt integrieren kannst.

Blueshoe und FastAPI in Produktion

Einführung

In der heutigen datengetriebenen Welt ist die Fähigkeit, Informationen schnell und effizient zu finden, von entscheidender Bedeutung. Elasticsearch bietet eine leistungsstarke Lösung, die es Unternehmen ermöglicht, ihre Daten zu indexieren und in Echtzeit abzufragen. Doch was genau ist Elasticsearch, und warum solltest du es in deinem Unternehmen oder Projekt einsetzen?

Erfahre mehr über unsere Elasticsearch-Entwicklungsdienste

Was ist Elasticsearch?

Elasticsearch ist eine verteilte, RESTful Such- und Analyse-Engine, die für ihre Geschwindigkeit und Skalierbarkeit bekannt ist. Sie ermöglicht es, Daten in nahezu Echtzeit zu speichern, zu suchen und zu analysieren. Mit Funktionen wie Volltextsuche, facettierter Suche und Aggregationen ist Elasticsearch eine ideale Lösung für Anwendungen, die große Datenmengen verarbeiten müssen.

Vorteile von Elasticsearch

Elasticsearch bietet zahlreiche Vorteile, sowohl für Entwickler als auch für Unternehmen:

Echtzeit-Suche: Benutzer können Daten in Echtzeit durchsuchen, was die Benutzererfahrung erheblich verbessert.
Skalierbarkeit: Elasticsearch kann horizontal skaliert werden, um mit wachsenden Datenmengen umzugehen.
Flexibilität: Dank der Unterstützung für verschiedene Datentypen und Abfragesprachen kann Elasticsearch in einer Vielzahl von Anwendungen eingesetzt werden.
Integration: Elasticsearch lässt sich leicht in bestehende Systeme integrieren und kann mit anderen Tools wie Kibana und Logstash kombiniert werden.

Technische Grundlagen und Funktionsweise

Im Kern basiert Elasticsearch auf Apache Lucene, einer leistungsstarken Such-Engine-Bibliothek. Während Lucene die grundlegende Suchfunktionalität bereitstellt, macht Elasticsearch diese durch eine REST-API und verteilte Architektur wesentlich zugänglicher. Die Anfragesprache von Elasticsearch ist JSON-basiert und ermöglicht sowohl einfache Volltextsuchen als auch komplexe analytische Abfragen. Mit der Query DSL (Domain Specific Language) können Entwickler präzise Suchanfragen formulieren, die von exakten Matches bis hin zu Fuzzy-Suchen reichen.

Hier ein paar Query Beispiele:

// 1. Einfache Volltextsuche
// Sucht nach Dokumenten, die das Wort "elasticsearch" im Feld "description" enthalten
{
  "query": {
    "match": {
      "description": "elasticsearch"
    }
  }
}

// 2. Fuzzy-Suche mit mehreren Bedingungen
// Findet auch Dokumente mit Tippfehlern und kombiniert mehrere Suchkriterien
{
  "query": {
    "bool": {
      "must": [
        {
          "fuzzy": {
            "title": {
              "value": "elastcsearch",
              "fuzziness": "AUTO"
            }
          }
        },
        {
          "range": {
            "price": {
              "gte": 10,
              "lte": 100
            }
          }
        }
      ]
    }
  }
}
// 3. Komplexe Volltextsuche mit Highlighting
// Sucht nach Phrasen und hebt die gefundenen Stellen hervor
{
  "query": {
    "multi_match": {
      "query": "cloud computing",
      "fields": ["title^2", "description"],
      "type": "phrase"
    }
  },
  "highlight": {
    "fields": {
      "title": {},
      "description": {
        "number_of_fragments": 2,
        "fragment_size": 150
      }
    }
  }
}

Um diese Queries zu nutzen, können sie über die Elasticsearch REST API gesendet werden, zum Beispiel: curl -X GET "localhost:9200/my-index/_search" -H "Content-Type: application/json" -d' {query hier einfügen}'

Ein weiteres cooles Feature von Elasticsearch is die Validate API. Mit dieser können Queries vor "richtiger" Ausführung überprüft werden. Genutzt werden kann sie mittels: curl -X GET "localhost:9200/my-index/_validate" -H "Content-Type: application/json" -d' {query hier einfügen}'

Besonders hervorzuheben sind Features wie Autocomplete und Suggestions, die durch spezielle Analyzer und Token-Filter realisiert werden. Die NGram- und Edge-NGram-Token-Filter ermöglichen es, Texte in kleinere Einheiten zu zerlegen, was für Autovervollständigung und Teilwortsuche essentiell ist. Darüber hinaus bietet Elasticsearch fortgeschrittene Funktionen wie Geo-Spatial-Suche, Aggregationen für analytische Zwecke und ein ausgefeiltes Scoring-System zur Bewertung der Suchergebnisse.

Deployment und Konfiguration

Elasticsearch lässt sich in verschiedenen Szenarien deployen, von einzelnen Entwicklungsinstanzen bis hin zu großen Produktivclustern. In Kubernetes-Umgebungen erfolgt das Deployment typischerweise über den Elastic Cloud on Kubernetes (ECK) Operator oder durch managed Services wie Elastic Cloud. Die Konfiguration erfolgt über YAML-Dateien, wobei wichtige Aspekte wie Speicherallokation, Netzwerkeinstellungen und Sicherheitsfeatures definiert werden.

Ein typisches Produktions-Setup umfasst mehrere Nodes mit unterschiedlichen Rollen (Master, Data, Ingest) und redundanter Datenhaltung durch Repliken. Für die Entwicklung eignet sich auch ein lokales Setup mit Docker Compose, das schnell aufgesetzt werden kann und die wichtigsten Features für Entwicklung und Tests bereitstellt.

Integration und Ökosystem

Das Elasticsearch-Ökosystem ist besonders umfangreich. Für Python-Entwickler steht der offizielle elasticsearch-py Client zur Verfügung, der eine intuitive API für alle Elasticsearch-Operationen bietet. Content Management Systeme wie Wagtail integrieren Elasticsearch für leistungsfähige Suchfunktionen in Websites. Die Integration erfolgt dabei meist über den Python-Client und ermöglicht Features wie automatische Indizierung von Inhalten und facettierte Suche.

Für das Monitoring und die Verwaltung stehen verschiedene Tools zur Verfügung. Kibana bietet umfangreiche Visualisierungs- und Management-Funktionen, während Grafana sich besonders für das Monitoring von Performance-Metriken eignet. Beats und Logstash ergänzen das Ökosystem um Datenaggregation und -transformation.

Michael Schilonka LinkedIn

Wir können auch deine Daten mit Elasticsearch durchsuchbar machen.

Jetzt Kontakt aufnehmen

Vergleich mit Alternativen

Im Vergleich zu Apache Solr, dem anderen großen Player im Bereich Suchengines, zeichnet sich Elasticsearch durch seine einfachere Handhabung und bessere Unterstützung für verteilte Systeme aus. Während Solr traditionell in Enterprise-Umgebungen stark ist, punktet Elasticsearch besonders bei modernen, Cloud-nativen Anwendungen. OpenSearch, ein Fork von Elasticsearch, bietet eine vollständig Open-Source-Alternative mit ähnlichen Funktionen.

PostgreSQL mit seiner Volltext-Suchfunktionalität kann für kleinere Anwendungen ausreichend sein, bietet aber nicht die Skalierbarkeit und spezialisierten Suchfeatures von Elasticsearch. Meilisearch und Typesense sind neuere Alternativen, die sich auf Benutzerfreundlichkeit und schnelle Integration fokussieren, aber nicht die gleiche Funktionstiefe bieten.

Lizenzen und Kosten

Seit 2021 verwendet Elasticsearch eine duale Lizenzierung: Die grundlegende Version ist unter der Server Side Public License (SSPL) verfügbar, während zusätzliche Features unter der Elastic License stehen. Diese Lizenzänderung hat zur Entstehung von OpenSearch geführt, das unter der Apache 2.0 Lizenz steht. Die Kosten für Elasticsearch variieren je nach Nutzungsszenario: Die Self-Hosted-Version verursacht hauptsächlich Infrastrukturkosten, während die Elastic Cloud als managed Service nach Ressourcenverbrauch abgerechnet wird. Enterprise-Funktionen wie maschinelles Lernen oder erweiterte Sicherheitsfunktionen sind kostenpflichtig.

Praxisbeispiel - Mayan EDMS in Kubernetes

Als Beispiel für die Verwendung von Elasticsearch möchte ich die Verschmelzung mit dem bekannten Mayan EDMS heranziehen. Hier haben wir das EDMS in einem Kubernetes Cluster eingerichtet. Mayan basiert per Standart auf einem lokalen Such-Index, welcher nicht verwendet werden kann wenn verschiedene Pods ins Spiel gebracht werden. Da jeder Pod seinen eigenen Such-Index bekommt funktioniert die Globale Suche im verteilten Kubernetes Mayan nicht mehr. Hier schafft Elasticsearch Abhilfe. Als globaler Index ermöglicht es die Suche nach Dokumenten, auch wenn diese von unterschiedlichen Pods indiziert werden.

Die größte Herausforderung hierbei war die richtige Konfiguration des Elasticsearch Stacks. Da es nur noch veraltete Helm-Charts für Elasticsearch selbst gibt und das Deployment des kompletten ECK-Stacks außer Frage stand, mussten wir den unkonventionelleren Weg gehen. Dieser sieht vor, dass man Elasticsearch als einzelne Node deployed. Der Elasticsearch-Operator wird dann automatisch mit deployed. Diese Methode ist die "unkonventionelle", da man sich selbst um richtiges Resourcen-Management sowie Volume Konfiguration kümmern muss. Nach dem Elasticsearch Setup kann man dann einfach die Mayan Instanz mittels der generierten Zugangsdaten zur Elasticsearch Node verbinden und die Dokumente werden indiziert. Wer sich für die Einrichtung von Elasticsearch als einzelne Node interessiert sollte unbedingt diese Anleitung auschecken.

Beispielprojekte, bei denen wir Elasticsearch eingesetzt haben.

Schnellere Suchen, Autocomplete (die Vervollständigung von Suchwörtern) und clevere Vorschläge: in diesen Projekten haben wir Elasticsearch eingesetzt.

LUMA Delikatessen AG - B2C Webshop und Website
Google Kubernetes Engine (GKE Autopilot) | Nuxt | Keycloak | Elasticsearch | Django Hurricane | REST | Headless | Wagtail
LUMA bietet seinen Kunden den vermutlich schnellesten Shop aller Online-Metzgerei weltweit. Unsere Systemarchitektur, die auf Microservices basiert und von Kubernetes pixel-perfekt betrieben wird, ermöglicht eine skalierbare Leistung und einfache Wartung. Alle Lighthouse-Scores beweisen, technisch und inhaltlich ist dieser Shop in der Champions League.
Zur LUMA Website
Winter & Company AG - Webshop und Website
Google Kubernetes Engine | Nuxt | Keycloak | Elasticsearch | Docker | Django Hurricane | Gefyra | Varnish
Für den Schweizer Designer von Bezugsmaterialen Winter & Company entwickelten wir eine digitale Strategie mit Fokus auf Suchmaschinenoptimierung. Zudem positionierten wir die Marke bei potenziellen Neukunden, die das Unternehmen bisher nicht kannten. Winter & Company setzt entkoppelte Backend-Systeme für den E-Commerce und Content-Management ein. Die unterschiedlichen Benutzergruppen und Kunden werden über einen zentralen Login auf der Website und den Backoffice-Applikation eingeloggt.
Zur Website

Fazit

Elasticsearch ist ein unverzichtbares Werkzeug für Unternehmen, die mit großen Datenmengen arbeiten. Es bietet nicht nur eine leistungsstarke Such- und Analyse-Engine, sondern auch eine Vielzahl von Funktionen, die die Datenverarbeitung erheblich erleichtern. Wenn du nach einer effektiven Lösung für die Suche und Analyse deiner Daten suchst, ist Elasticsearch die richtige Wahl.

Wenn du mehr über die Implementierung von Elasticsearch in deinem Projekt erfahren möchtest, kontaktiere uns! Wir helfen dir dabei, Elasticsearch in dein System zu integrieren und maßgeschneiderte Lösungen zu entwickeln, um deine Daten optimal zu nutzen.

Häufige Fragen

1. Wie skaliert man Elasticsearch?

Elasticsearch ist horizontal skalierbar. Du kannst:

Knoten hinzufügen: Neue Server in den Cluster integrieren.
Sharding verwenden: Indizes in kleinere Shards aufteilen, um die Last zu verteilen.
Replikate konfigurieren: Replikationen erhöhen, um Leseanfragen besser zu bewältigen und die Ausfallsicherheit zu verbessern.

2. Was ist ein Index in Elasticsearch?

Ein Index ist eine Sammlung von Dokumenten mit ähnlichen Eigenschaften. Er ist vergleichbar mit einer Datenbank in einer relationalen Datenbank. Jeder Index hat einen Namen und kann in mehrere Shards (Datenblöcke) aufgeteilt werden, um die Skalierbarkeit zu erhöhen.

3. Was sind Shards und Replikate?

Shards: Elasticsearch teilt große Indizes in kleinere Teile, sogenannte Shards, um die Verarbeitung auf mehrere Server zu verteilen.
Replikate: Kopien von Shards, die zur Verbesserung der Verfügbarkeit und Ausfallsicherheit dienen.

4. Welche Arten von Abfragen gibt es in Elasticsearch?

Elasticsearch unterstützt mehrere Abfragetypen, darunter:

Match Query: Für Volltextsuche.
Term Query: Für genaue Übereinstimmungen.
Range Query: Zum Suchen nach Werten innerhalb eines Bereichs.
Bool Query: Kombiniert mehrere Abfragen mithilfe von must, should und must_not.

5. Was ist der Unterschied zwischen Elasticsearch, Logstash und Kibana (ELK-Stack)?

Elasticsearch: Die zentrale Such- und Analyse-Engine, die Daten speichert und verarbeitet.
Logstash: Ein Tool zur Datenverarbeitung, das Daten aus verschiedenen Quellen sammelt, transformiert und an Elasticsearch sendet.
Kibana: Eine Visualisierungsplattform, die Daten aus Elasticsearch in Dashboards und Diagrammen darstellt.

6. Warum sollten man Elasticsearch wählen?

Elasticsearch hat sich als eine der führenden Suchlösungen etabliert und bietet eine Vielzahl von Funktionen, die es Entwicklern ermöglichen, leistungsstarke Suchanwendungen zu erstellen. Mit der Möglichkeit, große Datenmengen schnell zu verarbeiten und zu analysieren, ist Elasticsearch eine hervorragende Wahl für Unternehmen, die ihre Daten effektiv nutzen möchten.

Hast du noch Fragen oder eine Meinung? Mit deinem GitHub Account kannst Du es uns wissen lassen...

Hier sind ein paar Artikel, die du auch interessant finden könntest:

Handeln statt Isolieren: Wie wir bei Blueshoe mit Kubernetes entwickeln

Lokal entwickeln, im Cluster testen - ohne CI/CD-Wartezeiten. Gefyra verspricht den Heiligen Gral der Kubernetes-Entwicklung: Full-Speed-Coding mit echtem Cluster-Kontext. In unserem Praxisbericht erfährst du, warum das Tool ein Gamechanger für dein Daily Business ist und wie du es effizient in deinen Workflow integrierst

von Carl-Christian Neundorf

django-o365: Ein modernes Mailbackend für Django und Exchange Online

django-o365 ist ein Open-Source Mailbackend für Django, das den Versand von E-Mails über Exchange Online mit OAuth 2.0 ermöglicht. Entstanden aus realen Projektanforderungen, richtet sich das Paket an Teams, die Microsoft 365 einsetzen und ihren E-Mail-Versand sicher, wartbar und ohne Workarounds umsetzen möchten. Dieser Artikel gibt einen Überblick über Motivation, Funktionsumfang und Einsatz.

von Robert Gutschale

Django Caching meistern: Der ultimative Guide von Cachalot bis zur Low-Level API

Ist deine Django-Anwendung langsamer als sie sein sollte? Lange Ladezeiten frustrieren nicht nur deine Nutzer, sondern werden auch von Suchmaschinen abgestraft. Die Lösung liegt oft in einer intelligenten Caching-Strategie. Doch wo fängt man an?

von Jonathan Kölbl

Handoff vom Designer zum Entwickler: Was wir für die Frontend-Umsetzung benötigen

Der Übergang vom Design zur Entwicklung ist ein kritischer Moment in jedem Frontend-Projekt. Ein durchdachter Handoff kann Wochen an Entwicklungszeit sparen, während ein unvollständiger Handoff zu endlosen Rückfragen, Verzögerungen und Kompromissen führt.

von Lukas Rüsche

Warum unsere Wartungsreports ein Schlüssel zur erfolgreichen Zusammenarbeit sind

Ein Wartungsreport ist für uns mehr als eine Zahlentabelle: Er ist ein Werkzeug für Austausch, Planung und Vertrauen. Er zeigt, was wir getan haben, wo Potenziale liegen und welche Themen im nächsten Quartal anstehen - damit unsere Kunden wissen, dass ihre Systeme in guten Händen sind.

von Robert Gutschale

Weitere Blog Artikel

Entdecke spannende Einblicke und praktische Tipps in unseren neuesten Blogbeiträgen. Von Python und Rust über Kubernetes bis hin zu Django-Sicherheit und Frontend-Themen – hier findest du wertvolles Wissen für deine Projekte. Klicke hier, um alle Artikel zu erkunden!

Was unsere Kunden über uns sagen

Ofa Bamberg GmbH
B2B Online-Shop | B2C Website | Hosting | Betreuung | Security
© Ofa Bamberg GmbH
Seit zehn Jahren betreut Blueshoe unsere Webapplikationen – vom Onlineshop bis hin zum Web‑Umfeld. Die Zusammenarbeit ist stets kompetent, verlässlich und vorausschauend. Blueshoe ist für uns ein Partner, auf den wir uns jederzeit verlassen können.
Fabian BohnenGeschäftsführer
Ludwig-Maximilians-Universität München
Plattformentwicklung | Hosting | Betreuung | APIs | Website
Blueshoe hat unsere Forschungsdatenplattform Munich Media Monitoring (M3) entwickelt und uns hervorragend dabei beraten. Das Team hat unsere Anforderungen genau verstanden und sich aktiv in die Ausgestaltung der Software und der Betriebsumgebung eingebracht. Wir sind froh, dass auch Wartung und weiterführender Support in Blueshoes Händen liegen.
Prof. Dr. Mario HaimLehrstuhlinhaber, Institut für Kommunikationswissenschaft und Medienforschung
Deutsches Museum
Digitalisierung | Beratung | Datenbank-Optimierung | GraphQL | CMS
Foto: Anne Göttlicher
Im Rahmen eines komplexen Digitalisierungsprojekts für unsere Exponate-Datenbank war Blueshoe ein äußerst verlässlicher Partner. Sie haben uns nicht nur während des gesamten Projekts hervorragend beraten, sondern unsere Anforderungen perfekt umgesetzt. Dank ihrer Arbeit ist unsere Datenbank nun ein bedeutender Mehrwert für die weltweite wissenschaftliche Forschung.
Georg HohmannLeiter Deutsches Museum Digital
Fonds Finanz Maklerservice GmbH
Plattformentwicklung | Prozess-Systeme | Hosting | Betreuung | Zertifikate | Website
© Fonds Finanz Maklerservice GmbH
Blueshoe ist unsere verlängerte Werkbank für Entwicklung, Wartung und Support unserer Weiterbildungs- und Zertifizierungsplattformen. Das Team hat sich gründlich in unsere Abläufe eingearbeitet, und wir freuen uns, Blueshoe als zuverlässigen Partner an unserer Seite zu haben.
Norbert PorazikGründer und Geschäftsführer
Technische Universität Hamburg
Plattformentwicklung | Beratung | Prozess-Systeme | Hosting | Website
Seit 2019 unterstützt uns die Blueshoe GmbH tatkräftig bei der Entwicklung und Weiterentwicklung des "Digital Learning Lab" und der "Digital Learning Tools". Dank ihrer Beratung konnten wir von Anfang an auf eine zukunftssichere, moderne technische Struktur setzen. Die Zusammenarbeit ist reibungslos, und wir fühlen uns rundum gut betreut. Und davon profitieren dann auch die Lehrkräfte in Hamburg.
Sören Schütt-SayedOberingenieur

Inhaltsverzeichnis

Über den Autor

Wie Elasticsearch die Suche und Analyse von Daten revolutioniert.Elasticsearch: Die leistungsstarke Suchlösung für deine Daten.

Einführung

Was ist Elasticsearch?

Vorteile von Elasticsearch

Technische Grundlagen und Funktionsweise

Deployment und Konfiguration

Integration und Ökosystem

Vergleich mit Alternativen

Lizenzen und Kosten

Praxisbeispiel - Mayan EDMS in Kubernetes

Beispielprojekte, bei denen wir Elasticsearch eingesetzt haben.

LUMA Delikatessen AG - B2C Webshop und Website

Winter & Company AG - Webshop und Website

Fazit

Häufige Fragen

1. Wie skaliert man Elasticsearch?

2. Was ist ein Index in Elasticsearch?

3. Was sind Shards und Replikate?

4. Welche Arten von Abfragen gibt es in Elasticsearch?

5. Was ist der Unterschied zwischen Elasticsearch, Logstash und Kibana (ELK-Stack)?

6. Warum sollten man Elasticsearch wählen?

Hast du noch Fragen oder eine Meinung? Mit deinem GitHub Account kannst Du es uns wissen lassen...

Hier sind ein paar Artikel, die du auch interessant finden könntest:

Handeln statt Isolieren: Wie wir bei Blueshoe mit Kubernetes entwickeln

django-o365: Ein modernes Mailbackend für Django und Exchange Online

Django Caching meistern: Der ultimative Guide von Cachalot bis zur Low-Level API

Handoff vom Designer zum Entwickler: Was wir für die Frontend-Umsetzung benötigen

Warum unsere Wartungsreports ein Schlüssel zur erfolgreichen Zusammenarbeit sind

Weitere Blog Artikel

Was unsere Kunden über uns sagen

Handeln statt Isolieren: Wie wir bei Blueshoe mit Kubernetes entwickeln

django-o365: Ein modernes Mailbackend für Django und Exchange Online

Django Caching meistern: Der ultimative Guide von Cachalot bis zur Low-Level API