Wirtschaftsinformatik (Bachelor-Studiengang): Grundlagen der Kommunikationstechnik (4. Semester)
Sie sind hier: Startseite › Wirtschaftsinformatik › Grundlagen der Kommunikationstechnologie: Document Related Technologies (Archivierung, Dokumenten-Management)
HH / CM, Kurs vom 01.10.2003 - 31.03.2004
Document Related Technologies (Archivierung)
Was ist ein Dokument
Im DMS wird als Dokument jede Art von permanenter Aufzeichnung verstanden. Ein Dokument ist eine Kombination aus gespeicherten Daten, Datenträger (z.B. Papier oder optische Platte) und der für das jeweilige Dokument typischen Struktur. Heterogen aufgebaute Dokumente (Text, Graphik, Tabellen) werden als Einheit betrachtet.
Nach herkömmlicher Auffassung sind Dokumente "Mitteilungsmittel mit unbefristet gespeicherter, schwer veränderbarer authentischer und sichtbarer Mitteilung in der Gestalt von Texten oder Festbildern mit gerichtlicher Beweiskraft".
Dokumenterscheinungsformen
Coded Information (CI):
Maschinelesbare Daten und Dokumente
Beispiele:- ASCII
- Text
- Tabellen
- CAD
Non Coded Information (NCI):
Bildinformationen, bzw. Image-Dateien
Beispiele:- Fotos
- Scans
Optische Archive
Funktionalitäten:
- Optische Speichermedien
- Scanner-Ansteuerung
- Indizierung
- Barcode, OCR
- COLD-Übernahmen
- Recherche
- Langzeitarchivierung
Motivation zum Einsatz:
- Datenbankreorganisation
- Microfiche-Ablösung
- Aufbau von Call-Centern
- Prozessintegration
- Dezentralisierung/Außendienst
- Raumknappheit
- Lange Aufbewahrungsfristen
Ein elektronisches oder optisches Archiv verwaltet tote Dokumente bzw. Dateien (tiff, pdf), die also nicht mehr geändert oder bearbeitet werden.
Datenbank
Grundlage eines elektronischen Archivs.
Übersicht über Datenbankfunktionalitäten:
Datenbank für- die Verwaltung der Deskriptoren für die Dokumente
- Versions- und Änderungsverwaltung
- Zugriffsberechtigung bis auf Dokumentenebene
- Die Datenbank als Organisationsinstrument
- Abbildung der Umgebung
- Die Möglichkeiten des Datenbankdesigns (Deskriptoren, Verküpfungen, Dokumenten-ID)
Scanner-Technologie
Dokumententypen:
Verarbeitung beliebiger Dokumententypen- Papierdokumente
- Bilder
- Grafiken, Tabellen, Textdokumente, Host-Daten
Scan-Verfahren:
- Bitonal: S/W
- Greyscale: 256 Graustufen
- Colour: 256 Farben, Real Colour (16 Bit), True Colour (24 Bit = 16,7 Mio. Farben)
Ablageformate:
- tiff: Bitonal, Greyscale (voluminöse Dateien), Farbe (sehr voluminöse Dateien)
- jpeg: Für Farbbilder / Greyscale gut verwendbar, verlustreiche Komprimierungsmethode möglich
- andere Formate: MODCA (IBM), PICT; nach Möglichkeit nicht verwenden, da proprietär
Image Processing Komponenten:
Hersteller:
- Kofax
- Hardware-Komponenten
(hohe Geschwindigkeit, eigenes Interface, keine Unterstützung für NT) - Software-Unterstützung
(SCSI Interface Voraussetzung, langsamere Verarbeitung)
- Hardware-Komponenten
- Xionics
Scanner:
- Low End:
- max. 10 Seiten pro Minute,
- SCSI Interface mit TWAIN-Schnittstelle, ISIS
- Sekretariat,
- Persönliche Scanner
- Midrange:
- 40 Seiten pro Minute
- Anschluss über Videointerface oder SCSI
- Automatische Blattdichteneinstellung und Belichtung
- Paginierfunktionen
- Doppelseiten-Scanner
- Highend:
- 100 Seiten pro Minute
- Höhere Standzeiten
Scanner - Checkliste:
- schwarz-weiß/Graustufen/Farben (Blindfarben)
- Flachbett/Durchzug/Trommel
- mit/ohne ADF (automatische Dokumentenzuführung)
- Image Processing
- Format (z.B. A6, A4, A3, A0)
- Auflösung in dpi
- Durchsatz
- Service
Verarbeitbare Dokumente:
Formate DIN A4 - DIN A0: häufig keine Zwischenformate
Papierqualitäten: Papierstärke 60 g - 120 g
Betriebsbedingungen für Scanner:
Temperatur: normale Zimmertemperatur
Feuchtigkeit: vereinzelt nur 50 % nicht kondensierend
Feinde des Scanner: Staubanfall, Büroklammern, Klebenähte
Imagepreprocessing:
Steigerung der Erkennungsqualität
- Deskewing
(Geraderücken von Dokumenten) - Noiseremoval
(Entfernen von Punkten einer def. Pixelgröße,
Bildvolumen sinkt, störende Schatten entfernt) - Line Removal
(bei schlechterer Scan-Qualität, Formatüberlagerung und Subtraktion)
Imageverarbeitung:
- OCR (Optical Character Recognition)
(Lesen und Lernen, Kompletter Erkennungsvorgang) - ICR (Intelligent Character Recognition)
(Erkennung beim Scan-Durchlauf, automatische Indizierung, automatische Feldeinträge)
OCR Methoden:
- Bitmaperkennung
(Vergleich auf Pixelebene, Jeder Buchstabe muß trainiert werden, Auch "Dauerdruckfehler" können erkannt werden) - Omnifonterkennung
(Definition eines Buchstaben als mathematische Funktion, Übernahme der Buchstabenformatierung, Hohe Trefferquote für Druckzeichen) - Neuronale Erkennung von Buchstaben
(Buchstabenvergleich, Alternativenbewertung, Differenzanalyse) - Neuronale Objekterkennung
(Briefaufbau, Plausibilitätskontrollen)
Barcodeerkennung:
Barcode:
- Erkennung beim Scan-Durchlauf
- automatische Indizierung
- automatische Feldeinträge
Barcodetypen:
- mit Sonderzeichen (Code 39, Codabar)
- Numerisch (2 aus 5 Interleaf, EAN 8, EAN 13, 2 aus 5)
- mit und ohne Prüfziffer
COLD
- Vorgänger: COM - Computer Output on Microfiches
(Ausgabe von CI-Dokumenten auf Microfiche-Schreibgeräten) - COLD: Computer Output on Laser Disk
(Ausgabe von CI-Dokumenten auf optischen Speichermedien; Häufigste Anwendung der Archivierung)
COLD Grundfunktionalität:
- Lokalisieren von Dokumenten im Netz (Spoolübernahme)
- Archivierung
- Verschlagwortung auf einer Datenbank
Bildbeschreibung "COLD Grundfunktionalität": Dokumentablagen, COLD, Datenbank / Archiv.
COLD Konzept:
- Primär: Umleitung der Ausgabe auf einen Host-Drucker in
die Archiv-Umgebung
- Filterung + COLD
- Darüber hinaus: automatische Bearbeitung
- von CI- und NCI-Dokumenten
- Bearbeitungsregeln
- Erweiterung durch projektspezifische Module
COLD Dokumentarten (Organisatorische Einordnung):
- Ausgangsbelege
- Einzelne in sich abgeschlossene Dokumente
- Suche nach Dokument
- Drucklisten
- Suche innerhalb eines Dokumentes
COLD Dokumenttypen (Technischer Dateityp):
- Spoolübernahme Line Printer Datenstrom
- Spezialdruckersprachen
- AFP (IBM: Advanced Function Printing)
- Fole (Océ)
- Xerox
- Windows-Dateien
- Ablage in "unabhängigem Format"
COLD Verarbeitungsschritte:
- Dokumentermittlung
- Dokumenttrennung
- Seitentrennung
- Konvertierung, Eliminierung von Steuerzeichen (Mehrfachdruck)
- Indexermittlung
- Erzeugung Parameter-Files
- Archivierung
- Einfügen von Indexdaten
- Bearbeitungsregeln, Protokollierung
COLD Indexermittlung:
- Statische Suche nach Indexbegriffen
- Datum, Belegnummer, Kundennummer, Mandant
- Rechnungsnummer (Stelle 10-15, Zeile 4)
- Dynamische Suche
- Seriennummer (Stelle 1-10 nach Snr)
COLD Formularüberlagerung:
- Überlagerung von ASCII-Daten auf Image (zur Anzeige, zum Druck)
- per Scanner eingelesene Originalformulare (blanko)
- Formularverwaltung (Gültigkeitsverwaltung, Urbelegsforderung)
Listenarchivierung:
- Beispiel (Buchungsjournal mit 30.000 Seiten, ca. 188 MB)
- Suche innerhalb der Liste (Teilübertragung von Einzelseiten)
- Zugriffsüberprüfung (Listen mit sensiblen Daten)
COLD Stolpersteine:
- Transaktionshandling
- Liste mit 30.000 Seiten als eine Transaktion (z.B. 40 Minuten zur Archivierung, bei Fehlschlag bis 40 Minuten Rollback)
- Performance
- Änderung in Listen
- Feldverschiebung
- Verbindungsstabilität
- Host- Verfügbarkeit
Dateiimport
Elektronische Dokumente - CI:
- Quellen
- Textverarbeitung, Rechnungswesen, Tabellenkalkulationen, Datenbanken, CAD
- Integration mittels API oder asynchron per Zwischenablage
- Ablageformate in Abhängigkeit ihrer Verwendung
- Templates als Originalformat
- Langzeitdokumente in Langzeitformaten
- Verschiedene Verwendungszwecke als Rendition
Infrastruktur
Typische DV-Elemente eines DMS:
- WAN, Mail, Internet
- Retrieval-(Datenbank-)Server
- Jukebox-Server
- Jukebox
- Scan-Platz
Speichertechnologie
Medienarten:
- WORM-Platten
- Write Once Read Multiple
- Plattengröße: 5.25" bis 12"
- Plattenkapazitäten: 1,2 bis 9,1 GB für 5.25
- ROD-Platten
- Rewritable Optical Disk
- Plattengröße: bis 5.25"
- Plattenkapazitäten: bis 1,2 bis 9,1 GB
Speichermedien:
- Festplatte
- MO (Magneto-Optisch, wiederbeschreibbar)
- WORM (Write Once Read Many, einmalbeschreibbar)
- CD-ROM (gepresste CD)
- CD-R, einmalbeschreibbar "am Stück" / Multi-Session)
- DVD
Magneto-optische Platten:
- bestehen aus spezieller TbFeCo-Schicht
- Datenspeicherung geschieht rein magnetisch
- Schreibvorgang durch Laserblitz
Vorteile: bewährt und sicher, Archivierungszeitraum > 10 Jahre, preisgünstig
Phase-Change-Medien:
- optisches Speichermedium
- besteht aus Plastomer
- Laserlicht besitzt zwei verschiedene Intensitäten
- Zustände kristallin und amorph
Vorteile: Archivierungszeitraum bis mehr als 50 Jahre, höhere Schreibgeschwindigkeit als bei MO, bewährt und sicher, Hardware-WORM
Hinweis: Wird nicht mehr verwendet!
CD-Recordable Medium:
- besteht aus Plastomer mit spezieller Beschichtung
- Laserlicht verändert die Beschichtung
- nur einmal beschreibbar
- sehr empfindlich gegen falsche Handhabung
Vorteile: Archivierungszeitraum > 10 Jahre, schnellerer Schreibvorgang als bei MO, bewährt und sicher, sehr preisgünstig
DVD-Medium Digital Versatile Disk:
Recordable:
- Zwei grundsätzlich verschiedene Technologien minus und plus
- Sequenzielle Schreibweise
- Schreibweise wie CD
- sehr empfindlich gegen falsche Handhabung
Rewritable:
- Zwei grundsätzlich verschiedene Technologien minus und plus
- Phase-Change-Technologie
- Sequenzielle Schreibweise
- Empfindlich gegen falsche Handhabung
Vorteile: Archivierungszeitraum > 10 Jahre, schnellerer Schreibvorgang als bei MO, bewährt und sicher, sehr preisgünstig
Schreibverfahren im Vergleich:
- Schreibverfahren CD-R und DVD-R
- Single-Session/Disk-at-Once auf Medium Level (vorherige Datenansammlung)
- Packet- bzw. Incremental Recording auf Block Level (sofortiger Schreibvorgang)
- Schreibverfahren MO-WORM
- auf Sektor Level
Sicherheit und Robustheit des Speichermediums:
- MO-WORM
- Begrenzte Zahl von bekannten Anbietern mit hoher Qualitätskontrolle.
- Lesefähigkeit bei Wechsel des Laufwerksherstellers nicht immer gegeben.
- CD-R
- Empfindlichkeit gegen Licht und sonstige
chemische/physikalische Einwirkungen.
Lösung: Caddy-Mechanismus - Zahlreiche/anonyme Anbieter von Rohlingen erschweren die
Qualitätskontrolle.
Lösung: Festlegung auf einen Hersteller - Derzeit vier-Dye Grundstoffe (gold, grün, blau, silber). Unterscheidung für den Endkunden ist schwer.
- Empfindlichkeit gegen Licht und sonstige
chemische/physikalische Einwirkungen.
- DVD-R oder DVD+R
- Äquivalent zur CD
- Technologie ist noch nicht sicher
Wesentliche Unterscheidungsmerkmale für Jukeboxen:
- Formate
- Anzahl / Kombination / Hersteller der Laufwerke
- Doppelgreifer
- Wechselmöglichkeit (Magazine vorwiegend bei CD)
- Skalierbarkeit / Erweiterbarkeit
- Unterstützte Treiber
- Service
Speichermedien - Anwendungsbereiche:
- Festplatte
- Pufferung (Caching)
- MO (Magneto-Optisch) ROD
(Rewritable Optical Disk)
- kurze Aufbewahrungsfristen (< 2 Jahre)
- veränderbar
- MO-WORM
(Write Once, Read-Many)
- sichere Langzeitaufbewahrung
- CD-R ROD/WORM
- Datendistribution, Dienstleistung
- DVD
- Zukunft?
Archivierungskonzepte
Technische Veränderungen bestimmen die Strategie der Archivierung:
In 3 Jahren verändert sich eine Technologie teilweise und nach 10 Jahren wird sie vollständig durch neue Technologien ersetzt.
Kritische Technologien:- Speichermedien
- Datenbanken
- Formate
- Indizes
- Formate
- Schnittstellen
- Infrastruktur
Format Standards:
- Longterm Formats:
- Tiff Group4 (Image)
- Jpeg (Image)
- ASCII (Text)
- Rendition Formats:
- Presentation:
- PDF (Adobe)
- XML
- CAD:
- Step
- IGES
- DXF
- Presentation:
Index Standards:
- Common Indexes:
- Process
- Object
- Document type
- storage rule
- Process Indexes:
- Lot number
- Product status
- purchasing document
- Special/User Indexes:
- Invoice number
Unabhängiger Zugriff auf Dokumente durch das Archiv:
Bildbeschreibung "Unabhängiger Zugriff auf Dokumente durch das Archiv": Das Archiv bildet einen eigenen Index für Dokumentenzugriffe, unabhängig von den durch SAP oder DMS erstellten Indices.
Strategie für das Archivieren von Datenbankinformationen:
Datenbanken- sind dynamische Systeme mit änderbaren Daten
- bieten im Rechtsstreit nur schwache Beweismittel
- gesamte Datenbank müsste auf ein nicht änderbares Medium geschrieben werden
- für den Zugriff sind spezifische Info-Systeme erforderlich
- für langfristigen Zugriff muss auch Umgebung konserviert werden
Nicht die Datenbank soll archiviert werden, sondern die Information.
- Informationen in Listen und Reports transferieren und diese auf nicht änderbare Medien schreiben
Die Anforderungen an die Dateien / Dokumente bestimmen die Ablageformate:
- Original Format (
.doc
,.xls
) wenn Vorlage für neues Dokument - Public-Internetformat (HTML, PDF, XML) wenn Datei anderen zur Verfügung gestellt wird
- Langzeitarchivformat - Standard (ASCII, tiff, jpeg), wenn Aufbewahrungszeiträume größer als 5 Jahre sind
- Renditions - mehrfache Formate eines Dokuments wenn mehrere Anforderungen gleichzeitg bestehen
Document Related Technologies (Dokumenten-Management)
DMS-Begriffe
Unter Dokumenten-Management werden häufig auch andere Begriffe subsumiert:- Archivierung
- Workflow
- Dokumenten-Management
Definitionen:
"Ein Dokumenten-Management-System sammelt interne und externe Dokumente, bereitet sie elektronisch auf, archiviert sie, bzw. legt sie ab und stellt sie bei Rechercheanfragen zur Verfügung. Dokumenten-Management-Systeme halten außerdem Informationen über den Bearbeitungsstatus dieser Dokumente vor." (nach Gulbins et al)
Dokumenten-Management:
Funktionalitäten:
- Check In Check Out
- Versionsverwaltung
- Retrievalfunktionen
- Recherchen
- Indexkombination
- Integration in Anwendungen
- Hierarchische Ablagesysteme
- Web Connectivity
Motivation zum Einsatz:
- Hohes Dokumentenaufkommen
- Starke Arbeitsteilung, Projektarbeit
- Angebotserstellung verkürzen
- Reaktionszeit verkürzen
Prozess der Informationsverarbeitung
Ziele von Dokumenten-Management:
Bereitstellung der benötigten Informationen zur richtigen Zeit, am richtigen Ort, der richtigen Person.
Ebenen der Informationskette:
Bildbeschreibung "Ebenen der Informationskette": Informationserfassung durch Scanner, EDI/ISDN (Lesen, Empfangen, Erkennen). Interpretation durch Indizes, Codierungen (Zuordnen, Sortieren, Verteilen). Informationsverarbeitung durch DMS-Intergration, Intranetanwendungen, PPS-Systeme, Fertigungssysteme (Verkaufen, Bearbeiten, Buchen, Fakturieren, Zahlen, Beraten). Informationsspeicherung durch Drucker, Internet, In-Boxes, File-Systems, Optische Archive (Ausgeben, Versenden, Ablegen, Weiterleiten, Archivieren).
Die technische Unterstützung der Informationsprozesse ist durchgängig.
Prozesse und Technologie:
- Erfassen (Scan-Technologie),
- Sortieren (Datenbanken),
- Zuordnen (Workflow),
- Wertschöpfung (Integrierter Workflow),
- Zuordnen (Workflow),
- Sortieren (Datenbanken),
- Ablegen (Archivtechnologien)
Informationsverarbeitung:
Informations-"Verwaltung":
- sammeln / erfassen / erstellen
- freigeben
- einordnen / klassifizieren / systematisieren
- ablegen / sichern
- Informationsfluss steuern
- zuordnen (Kosten umlegen)
- löschen
Informations-"Nutzung":
- finden
- kommentieren / Notizen anbringen
- zusammenstellen / Zusammenhänge herstellen um zu interpretieren
- weiterleiten
Recherche-Index
Die Metainformationen von Dokumenten:
Die Metainformationen beinhalten für Dokumenten-Management mindestens drei Aspekte:- Beschreibung anhand von Attributen (z.B. Projekt, Autor, Erstellungsdatum, Zeit, Version, Aufbewahrungsfrist)
- Klassifizierung (Eingangsrechnung, Managementletter, Produktbeschreibung, Bestellformular)
- Formatinformation (PDF,
.doc
,.tif
, XML)
Die Nutzer benötigen eine mehrdimensionale Klassifizierung in Datenbanken:
Fragestellungen "Ich suche...- ...die Akte xyz-25/3 aus dem Jahr 1994"
- ...einen Lieferschein des Lieferanten Müller aus dem Februar 1996"
- ... den Schriftwechsel mit Interessent Dr. Meyer zum Projekt Sandstr."
- ...den Originalbeleg zur Buchung 4711"
- ...Grafiken aus dem Bereich Business Reengineering"
- ...Zeitungsartikel über Wirtschaftspolitik, in denen Bill Clinton und Gerhard Schröder gemeinsam vorkommen"
- ...die Einbauanleitung für den Ventilator in Anlage 47, im Gebaude 3"
Die Suchanforderungen bestimmen die Ablageart:
- Flacher Index
Bsp.: Dokumenttyp: Rechnung; Datum von: 1.2.96; Datum bis: 1.3.96; Bearbeitungsstatus: erledigt; Bearbeiter: Scholz - Hierarchische Suche
Bsp.: Wirtschaft -> Organisation -> Reengineering -> Artikel - Kontext-Suche (Links)
Bsp.: Plan Komplex A -> Plan Gebäude 5 -> Turbine 4 -> Ventilator C -> Einbauanleitung -> Ersatzteil-Liste - Volltextretrieval
- Dokumenten-Verweis (integriert)
Hinweis: So wenig Indizes wie möglich und soviel wie notwendig verwenden!!!
Vorteile:
- Exakter Zugriff
- Komfort
- Individualität
Nachteile:
- Erfassungsaufwand
- Größere Datenbank
Dokumenten-Verweis:
Vorteile:
- Integration/Ergänzung bestehender Benutzer-Umgebungen
- geringe Einarbeitung
- hoher Automationsgrad
Nachteile:
- Abhängig von den Möglichkeiten des übergeordneten Verwaltungssystems
- Häufig nicht für DMS optimiert
Typische Einsatzgebiete: SAP (und vergleichbare Verwaltungssysteme), Workflow, Image Enabling
DMS-Konzepte
Bei der Auswahl einesDMS sollten die zentralen Anforderungen überprüft werden.- Sicherheit
- Einfache Bedienung
- Hohe Integrationsfähigkeit
- Folgekosten
- Langzeitarchivierung
Sicherheit:
- Vollständige Wiederaufbau der Datenbanken aus den Medien oder aus der Datensicherung
- Unterstützung von Datensicherungskonzepten (Kopieren, Backup und Spiegeln von Medien)
- Benutzerverwaltung
- Dokumentenschutz
- Versions-/Aktivitäten-Transparenz, Protokollierung
- Disaster-Recovery-Verfahren
Einfache Bedienung:
- Bedienung leicht zu erlernen - intuitiv
- Hilfestellungen für den Benutzer (z.B. Online-Hilfe, Auswahllisten, Assistenten)
- gutes Antwortzeitverhalten (Geschwindigkeit)
- Automatische Indizierungs- und Strukturierungs-Möglichkeiten (z.B. OCR, Barcode-Erkennung,COLD)
Integrationsfähigkeit:
- Einhaltung von Standards (DDE, OLE, SQL/ODBC, TWAIN, SCSI, ODMA)
- Unabhängigkeit von einzelnen Drittherstellern (z.B. Netzwerk, Betriebssystemen, Jukeboxtreibern, Datenbanken)
- Offengelegte API
- Integrationsfähig = gute Zukunftssicherheit
Schnittstellen - Kopplung zu den Bereichen/Lösungen:
- Warenwirtschaft: CAD
- FIBU: Fax
- PPS: Mail
- Office (WinWord): Workflow; Branchen-/Betriebs-Individuell
Rentabilität:
- Standard-Produkt (geringere Lizenzkosten, Weiterentwicklung auf breiter Basis)
- Integrationsfähigkeit (Einsatz vorhandener DV-Infrastruktur)
- Unabhängig von Drittanbietern (Auswahl)
- Anpassbarkeit (Hilfsmittel, offene Schnittstellen)
- Einfach administrierbar
Skalierbarkeit:
- Upgrade-Pfad
- mehrere Scan-Plätze
- mehrere Jukeboxen
- Verteilte Systeme, Verteilung von einzelnen Diensten (Caching, Medienhandling, Datenbank)
- Lösung unterschiedlicher Aufgabenstellungen