Tag Machine für DEVONthink 0.1.14

michael_m · January 12, 2012, 7:07pm

Hallo,

ich besitze einen ScanSnap und Scanne ziemlich viele Dokumente um das Papier los zu werden. Da die Ansteuerung des Scannen ziemlich bescheidnen, oder kaum möglich ist, habe ich einen ganz anderen Workflow entwickelt.

Ich habe auf dem Schreibtisch einen Ordner mit dem Namen “Einsortieren” und das Icon von DEVONthink dort einkopiert. Ich Scanne mit dem ScapScan ohne OCR-Texterkennung direkt in diesen Ordner. Der Ordner hat eine Ordneroption mit der dann die Dokumente mit OCR erkannt werden und in den Globale Eingangskorb der DEVONthink Datenbank verschoben wird.

Das ganze hat jetzt vier große Haken.

Der Dateiname lautet: 2012_01_12_17_04_32.pdf
Es sind keine Tags enthalten
Es ist keine Struktur definiert
In den Globalen Eingang der Datenbank

Das bedeutet der Name ist nichts sagend, wenn das Datum nicht gerade das Papierdatum ist, was sehr sehr unwahrscheinlich ist.

Die Tag Vergabe in DEVONthink ist zwar machbar, aber die Datei verschiebt sich nicht automatisch an den richtigen Ort.

Die Struktur muss von Hand gebaut werden um die Datei dort hin zu verschieben.

Aus diesem Grund habe ich 2 Jahre an der Tag Maschine geschrieben und die ist auch soweit fast fertig. Die Plazierung dieses Tools würde ich gerne in das Skript der Ordneraktion einbinden.

Dann würde nach der OCR Erkennung direkt mit dem Tagen begonnen werden.
Zur Zeit werden folgende Funktionen ausgeführt.
Es wird das Datum auf dem Papier erkannt und auch zerlegt verwendet.
Es wird der Absender und der Empfänger erkannt
Es wird erkannt Welche Art von Dokumente es sich handelt, Rechnung, Schriftverkehr, Dokument, Kontoauszug…
Es wird erkannt um welchen Betreff es sich handelt.

Die Tag Maschine lernt und es werden nach und nach immer bessere Ergebnisse erzielt.
Es werden Folgende Tags erkannt und auch Generiert:
Komplettes Datum, Jahreszahl, Absender, Empfänger, Dokumentart, Betreff, Es wird ein Archivdatum zum Archivieren des Dokumentes erzeugt, Es wird ein Verfallsdatum des Dokumentes erzeugt. Die Tags werden in den Spotlite Kommentar geschrieben.

Es gibt auch einen Transformer der mehrere Suchergebnisse zu einem bestimmten Wort Transformiert, wie z.B “Fern Universität Hagen”, “FernUniversität Hagen”, “FernUniversität in Hagen” Transformiert zu “FernUniversität Hagen”.

Der Dateiname wird ebenfalls neu erzeugt und hat folgenden Aufbau.
JJJJ-MM-TT-Absender-Empfänger-Dokumentart-Betreff.pdf

Nachdem alle Daten erzeugt wurden und das Dokument manipuliert wurde, wird im Archiv geprüft ob der Ablageordner “Jahr” schon erstellt wurde, wenn nein, dann wird er erstellt und das Dokument dann dort hinein verschoben.Sollte der Dokumentname bereits vorhanden sein, so wird der Name hoch gezählt.

Für DEVONthink würde ich mir vorstellen, direkt in den Eingangsordner der direkten Datenbank zu schreiben statt in den globalen Eingangsordner.

Da benötige ich aber Kontakt zum DEVONthink Entwickler für ein paar Fragen um Anpassungen machen zu können.

Die Übernahmen der Daten aus Spotlite und den Dateinamen zu DEVONthink sind ohne weiteres mit einem Script möglich um Tags und Struktur automatisch erzeugen zu können.

So bis dahin

Viele Grüsse
Michael Madej

cgrunenberg · January 13, 2012, 1:19pm

Das wäre dann wohl ich

michael_m · January 13, 2012, 3:03pm

Sehr geehrter Herr Grunenberg,

Den Tag Algorithmus habe ich eigentlich für ein größeres Projekt geschrieben, welches noch nicht fertig ist, aber da ich jetzt DTPO lizensiert habe, habe ich mich kurz entschlossen diesen als Tag Maschine in DEVONthink ein oder um zu binden.

Dazu muss ich mir jetzt erst noch klar werden, ob die Dokumente innerhalb oder Ausserhalb von DTP getagt werden sollen.

Da DT eine Datenbankanwendung ist, die in sich gepackt ist, weiss ich nicht ob das klug wäre da drin zu rum zu fummeln ?

Oder ob es besser wäre das ganze über einen Ordner zu lösen und dann würde der Tagger die getaggten Daten in einen weiteren Ordner ablegen, der dann alle Dokumente in DTP über Ordneraktionen “DEVONthink - Import & Delete.scpt”

Dann gäbe es da noch eine weitere Möglichkeit, die da wäre, das alles komplett so bleibt und die Dokumente in einen Archivordner abgelegt werden, und DEVONthink nur noch Indizierte Elemente aktualisiert. Damit wäre alles auf das geringste Reduziert.
Dokumente werden umbenannt, die Tags werden gefunden, gespeichert, verschoben, die Struktur wird gebaut und alles Was DT machen muss ist aktualisieren. Also würde es dann in dieser Form eine eigenständige Applikation.

Viele Grüsse
Michael Madej

cgrunenberg · January 17, 2012, 9:47am

Das hängt davon ab, wie genau daran “rumgefummelt” werden soll. Die .dtBase2 Datenbanken sind zwar Pakete und enthalten jedes einzelne Dokument im Unterordner Files.noindex, es ist aber nicht empfohlen, darin Dateien anzulegen, zu löschen, umzubenennen oder direkt zu taggen. Alles, was über die AppleScript-Schnittstelle erfolgt, ist aber natürlich erlaubt.

Wie genau soll den getaggt werden? Mit Hilfe eines Programms, das OpenMeta unterstützt, mit DEVONthink selbst oder mit Hilfe der Tag Machine?

michael_m · January 19, 2012, 8:36am

Zur Zeit werden die Metadaten in den Spotlitekommentar mit Semikolon getrennt geschrieben und die Files werden in einer Ordnerstruktur abgelegt.

Das sind genau die Spezifikationen, aus der DTPO auch seine Metadaten holen kann.
Das funktioniert auch soweit ganz gut.

Geplant war, das die Metadaten direkt in das PDF geschrieben werden sollen, aber soweit bin ich noch nicht.

Zur Zeit funktioniert es so, das ich den Scanner die Files in einen Ordner Scannen lasse.
Von dort greift mein Applescript ein und bearbeitet das Dokument und legt es dann in einen weiteren Ordner mit Struktur ab. Das ist der mit der Ordneraktion. Von dort werden die Dokumente automatisch nach DTPO geschoben. Der Workflow geht schon mal ganz gut, aber in DTPO muss ich dann noch die Dokumente in das entsprechende Archiv verschieben und muss noch zusätzlich das Script starten das die Metadaten aus dem Spolitekommentar holt. Das würde ich gerne ändern, weil es wieder zusätzliche Arbeitsschritte sind. Da ich das Script für Massenabarbeitungen konzipiere, sollen so wenig Schritte wie möglich vom Anwender ausgeführt werden.

Überlegt habe ich mir, in dem Script mit der Ordneraktion auch noch das Script auf zu rufen, in denen die Metadaten aus dem Spotlitekommentar geholt werden.
Dabei weiss ich jetzt nicht, ob das nur geht, wenn es aus DTPO aufgerufen wird?
Genau so weiss ich auch nicht, ob man das verschieben der Dokumente auch nur in DPO ausgeführt werden können?

Viele Grüsse
Michael

cgrunenberg · January 20, 2012, 11:59am

Eigentlich sollte eine angepasste Ordneraktion in der Lage sein, alle Schritte (oder weitere Skripte) auszuführen. D.h. die Ordneraktion selbst schickt ja schon Skriptebefehle an DEVONthink Pro (Office), d.h. das Integrieren weiterer Befehle (ohne UI) sollte kein Problem darstellen.