Startseite / Magazin / Nachricht

Probleme bei der Verarbeitung von PDF-Dateien in ECM-Systemen?

| Thomas Lichtenberg | ECM-Ratgeber

E-Mailarchivierung

Jeder verwendet PDF-Dateien. Schon längst ist das sogenannte Portable Document Format – kurz PDF – für ein plattformunabhängiges Dokumentenhandling unumgänglich geworden; selbstverständlich kommt das Format auch in Enterprise Content Management-Systemen zum Einsatz. Hin und wieder passiert es allerdings, dass PDF-Dateien in ECM-Systemen scheinbar nicht korrekt verarbeitet werden – diese Erfahrung haben wir in Kundenprojekten gemacht. Wo liegt das Problem?

Wenn es zu solchen Störungen kommt, ist meistens entweder der Aufbau der PDF-Datei nicht standardgerecht oder die eingesetzten Viewer unterstützen nicht alle Facetten. Immerhin umfasst der PDF-Standard mittlerweile mehr als 1000 Seiten und beinhaltet verschiedene PDF-Versionen.

Im ECM-Umfeld sollte daher eigentlich nur ein archivtaugliches PDF-Format, nämlich PDF/A, zum Einsatz kommen. Es ist aber wie so oft: Theorie und Praxis liegen weit auseinander. Gerade im unternehmensübergreifenden Dokumentenaustausch werden zum Teil unterschiedlichste Werkzeuge eingesetzt, um aus verschiedenen Systemen PDF-Dateien zu erzeugen. Dies führt immer wieder zu Schwierigkeiten.

Welche Probleme treten auf?

Darstellungsschwierigkeiten:

Der Sinn des PDF/A-Formats ist die einheitliche Darstellung von Dokumenten auf unterschiedlichen Geräten und über unterschiedliche Softwaregenerationen hinweg. Ein Dokument kann nur dann als Beweisstück herhalten, wenn alle darin enthaltenen Informationen immer in gleicher Weise vom Leser wahrgenommen werden können. Darstellungsprobleme von PDF-Dateien auf unterschiedlichen Viewern rühren in vielen Fällen aus fehlerhaften PDF-Strukturen und stellen ein ernst zu nehmendes Problem hinsichtlich der Verkehrsfähigkeit und Revisionssicherheit der betroffenen Dokumente dar.

Verarbeitungsprobleme:

Eine in der Praxis häufig auftretende Störung ist die fehlerhafte Identifikation des MIME-Types. Der MIME-Type beschreibt den technischen Typ einer Datei und wird von vielen Anwendungen wie Webbrowsern oder Viewern genutzt, um eine Datei richtig zu interpretieren. In Windowsumgebungen wird dafür oft die Dateiendung (*.pdf) genutzt – nur das allein reicht aber nicht aus: Der PDF-Standard sieht vor, dass der MIME-Typ eines PDF-Dokuments in der Datei selbst beschrieben sein muss. Erfolgt diese Kennzeichnung nicht oder nicht korrekt, misslingt die Verarbeitung. Die entsprechenden Dateien können vielleicht mit einem PDF-Viewer angezeigt werden, die Darstellung in einem Webbrowser kann aber nicht funktionieren. Ist der MIME-Typ fehlerhaft, liegt ein schwerer Fehler im Datenformat vor, der in der Regel auch dazu führt, dass ECM-Systeme den Import oder die automatische Verarbeitung ablehnen.

Wie sieht die Lösung aus?

Um es gleich vorweg zu nehmen: Sauber ist eine Lösung nur, wenn man direkt an der Quelle ansetzt, also bei der Erzeugung der PDF-Datei!

Bei fehlerhaften PDF-Dateien sollte also immer der Ersteller informiert und aufgefordert werden, PDF/A-konforme Dokumente zu liefern. Die Archivierung von nicht-PDF/A-kompatiblen Dokumenten birgt für den Betreiber des Systems immer ein Risiko. Auch wenn solche Dokumente heute auf den ersten Blick ohne Fehler verarbeitet und dargestellt werden, kann dies für die Zukunft nicht garantiert werden.

Gerade im Rahmen der unternehmensübergreifenden Kommunikation, zum Beispiel beim Rechnungseingang, besteht ein erhebliches Risikopotenzial, da eine große Anzahl von Absendern unterschiedlichste Systeme zur PDF-Erzeugung nutzt. Viele per E-Mail kommunizierte Rechnungen sind nicht PDF/A-konform, so dass sich in den Archiven des Rechnungseingangs ein bunter Strauß an PDF-Varianten aufbaut. Dabei ist gerade hier mit dem ZUGFeRD-Format ein PDF/A-3-konformes Format definiert und verfügbar, dessen Einsatz diese Probleme von Grund auf ausschließen würde.

Um PDF-Dateien auf Norm-Konformität zu prüfen, stehen verschiedene Werkzeuge zur Verfügung, etwa der quelloffene und freie veraPDF-Validator. Allein die Kennzeichnung einer PDF-Datei als Version 1.4 lässt aber nicht zwingend darauf schließen, dass diese auch dem Format PDF/A-1 entspricht, weil dieses zwar auf Version 1.4 aufsetzt, jedoch Einschränkungen vornimmt. Außerdem ist die Online-Prüfung aller Dokumente im Importverfahren praktisch nur schwer umsetzbar, weil das Verfahren mit mehreren Sekunden je Dokument sehr zeitaufwändig ist. Ein sicherer Weg wäre, ausschließlich digitale Dokumente von Partnern zu akzeptieren, die sich selbst zur Einhaltung der PDF/A-Konformität verpflichten. Diese Verpflichtung sollte zu Beginn der Zusammenarbeit und später regelmäßig durch Stichproben überprüft werden.

Kann man die Dokumente nicht einfach in PDF/A wandeln?

Prinzipiell kann unser ECM-System PEGASOS in vielen Fällen PDF-Dokumente durch „Korrekturmaßnahmen“ PDF/A-konform umwandeln. Dieser Vorgang ist allerdings mit einem hohen Rechenaufwand verbunden und führt auch nicht in jedem Fall zum Erfolg. Wenn zum Beispiel der Erzeuger eines PDF-Dokuments „exotische“ Schriftarten verwendet, wie es im Sinne eines Corporate Designs durchaus üblich ist, kann ein PDF/A nur erstellt werden, wenn die entsprechende Schriftart am Konverter verfügbar ist.

Eine nachträgliche PDF/A-Wandlung ist immer mit erheblichem Aufwand verbunden und zudem unsicher. Deshalb sollte die Wandlung nur in gut abgewogenen Ausnahmen eingesetzt werden. Der beste Weg bleibt also der Austausch von PDF/A-konformen Dokumenten.

Weitere Informationen

Über den Autor

Thomas Lichtenberg

Thomas Lichtenberg ist Geschäftsführer des ECM-Lösungsanbieters NEXUS / MARABU GmbH und Experte für die organisatorische und technologische Umsetzung von dokumentenbasierten Prozessmanagementsystemen in Gesundheitseinrichtungen.

Zurück