Die Open-Source-Community erlebt bereits seit Jahren einen besorgniserregenden Präzedenzfall: Die Community Edition von Pentaho Data Integration (PDI), jahrelang ein Leuchtturm-Projekt im Bereich der Open-Source-ETL-Tools, ist neuerdings praktisch vom Erdboden verschwunden. Der neue Eigentümer – Hitachi Vantara – hat systematisch alle alten Versionen aus dem Internet entfernt – ein Vorgehen, das nicht nur fragwürdig erscheint, sondern wahrscheinlich auch illegal ist.
Eine Open-Source-Erfolgsgeschichte wird begraben
Pentaho Data Integration, vielen auch unter dem frühen Namen Kettle bekannt, war über Jahre hinweg eine gute Wahl für Entwickler und Unternehmen, die eine leistungsfähige ETL-Lösung (Extract, Transform, Load) suchten, ohne dafür tief in die Tasche greifen zu müssen. Die Community Edition bot einen beeindruckenden Funktionsumfang und ermöglichte es auch kleineren Unternehmen und Einzelpersonen, professionelle Datenintegrationsprojekte umzusetzen.
Nach der Übernahme durch Hitachi Vantara hat sich die Situation jedoch dramatisch verändert. Wo früher auf SourceForge, GitHub und der offiziellen Pentaho-Website Download-Links zur Community Edition zu finden waren, herrscht nun gähnende Leere. Die alte Dokumentation? Verschwunden. Die Download-Archive? Gelöscht. Selbst Verweise auf die Community Edition wurden aus der offiziellen Kommunikation getilgt. Die Community Edition soll es angeblich noch geben, sie ist allerdings nirgendwo zu finden. Selbst Hitachi Vantara-Foren zu dem Thema sind verschwunden.
Ein rechtlich fragwürdiges Manöver
Hier wird es besonders problematisch: Pentaho Data Integration Community Edition und deren Bibliotheken standen unter verschiedenen Open-Source-Lizenzen, darunter die LGPL (Lesser General Public License). Diese Lizenzen sind nicht einfach Empfehlungen – sie sind rechtlich bindende Verträge. Ein zentraler Bestandteil solcher Lizenzen ist die Verpflichtung, den Quellcode verfügbar zu halten und die Weiterverbreitung zu ermöglichen.
Was Hitachi hier praktiziert, bewegt sich in einer rechtlichen Grauzone oder überschreitet die Grenzen des Legalen. Man kann nicht einfach bereits unter Open-Source-Lizenz veröffentlichte Software nachträglich aus dem Verkehr ziehen, nur weil man lieber seine kostenpflichtige Enterprise Edition verkaufen möchte. Die LGPL räumt jedem das Recht ein, die Software zu nutzen, zu modifizieren und weiterzuverbreiten – ein Recht, das nicht einseitig aufgehoben werden kann.
Die Strategie ist durchsichtig: Indem man die kostenlose Alternative unsichtbar macht, sollen potenzielle Kunden zur teuren Enterprise-Lösung gedrängt werden. Was wie geschicktes Marketing aussehen mag, ist ein Affront gegen die Prinzipien von Open Source und mit hoher Wahrscheinlichkeit ein Verstoß gegen bestehende Lizenzvereinbarungen.
Apache Hop: Der Phoenix aus der Asche – mit Schönheitsfehlern
Die Geschichte hat allerdings einen weiteren Aspekt: Die ursprünglichen PDI/Kettle-Entwickler haben das Projekt nicht einfach aufgegeben. Sie haben einen Fork namens Apache Hop (Hop Orchestration Platform) ins Leben gerufen, ein Projekt, das unter dem Dach der Apache Software Foundation weiterentwickelt wird.
Apache Hop versucht, das Erbe von PDI fortzuführen und dabei moderne Konzepte zu integrieren. Die Funktionalität ist vorhanden, die Community engagiert – doch es gibt einen erheblichen Haken: Die Benutzeroberfläche und User Experience sind im direkten Vergleich zu PDI eine Katastrophe.
Wer jahrelang mit der intuitiven, wenn auch nicht perfekten PDI-Oberfläche gearbeitet hat, steht bei Apache Hop vor einer steilen Lernkurve. Die UI wirkt unaufgeräumt, viele gewohnte Workflows funktionieren anders, es sind deutlich mehr Mausklicks nötig, um dasselbe Ergebnis wie früher zu erreichen und die Dokumentation kann die Lücke zwischen alter und neuer Arbeitsweise nur teilweise schließen. Es ist, als hätte man sein etwas in die Jahre gekommenes Werkzeug gegen ein leicht umlackiertes aber als modern deklariertes Gerät getauscht, bei dem man erst einmal das Handbuch von vorne bis hinten lesen muss, bevor man überhaupt den Einschalter findet und bei dem das Lenkrad an den Rücksitz montiert wurde. Die UX ist nach heutigen Maßstäben wirklich fürchterlich. Etliche UX-Entscheidungen der Entwickler sind objektiv nicht nachvollziehbar, da sie die Software nicht besser sondern deutlich schlechter bedienbar und unbequem machen.
Das soll nicht heißen, dass Apache Hop keine Zukunft hat – im Gegenteil. Aber der Übergang ist äußerst holprig, die Entwickler reagieren giftig auf Anregungen in Sachen UX, und für viele Anwender, die unter Zeitdruck stehen oder ihre bestehenden PDI-Pipelines am Laufen halten müssen, ist Hop momentan keine praktikable Alternative.
Fazit: Ein warnendes Beispiel
Der Fall Pentaho Data Integration zeigt einmal mehr, wie fragil die Open-Source-Welt sein kann, wenn kommerzielle Interessen ins Spiel kommen. Was über Jahre von einer Community aufgebaut wurde, kann von einem Konzern mit einem Federstrich aus der öffentlichen Wahrnehmung gelöscht werden – zumindest kann ein Unternehmen das versuchen.
Hitachis Vorgehen sollte ein Weckruf für die Open-Source-Community sein: Wir brauchen bessere Mechanismen, um solche Projekte zu schützen. Mirrors, Forks, Archive und dezentrale Speicherung sind keine Luxusgüter, sondern Notwendigkeiten. Und rechtlich gesehen sollten Lizenzverstöße dieser Größenordnung nicht einfach stillschweigend hingenommen werden.
Für alle, die auf PDI angewiesen sind und sich fragen, wie es weitergehen soll: Es gibt noch Hoffnung.
Alte PDI-Versionen wurden in einem Github-Repository gesichert, dagegen kann Hitchi Vantara auch aufgrund der Open Source-Lizenzen nichts tun. Dort kann man ältere Versionen für Legacy-Projekte herunter laden, mit der letzten aktuellen Pentaho Data Integration pdi-ce-9.4.0.0-343 kann man gut arbeiten.
Weniger Glück hat man mit der Dokumentation und all die alten Benutzerdiskussionen mit hilfreichen Tipps, die sind weitestgehend weg, manches dürfte allerdings auf archive.org zu finden sein, zudem gibt es Bücher beispielsweise von Packt Publishing.

