Wer Word 2007 XML Dokumente (.docx) unter RISC OS als Text lesen möchte kann ein kleines Perl Skript dafür nehmen. Dabei wird aber nur der Text aus dem Dokument extrahiert. Bilder kann man sich dann seperat ansehen. Nicht ideal, aber besser als nichts und man muss nicht auf Linux, Mac OS oder Windows ausweichen um den Text zu lesen. Dazu braucht man Perl, SparkFS und eine Tastatur.
Kurzanleitung:
[list]
[*]Perl runterladen http://www.cp15.org/programming/ und dann !Perl zum Beispiel in !Boot.Resources ablegen und dann auf !Perl doppelklicken.
[*]docx2txt runterladen http://docx2txt.sourceforge.net/ und die Datei docs2txt/pl aus dem Archiv zum Beispiel in !Boot.Library ablegen. Eventuell der Datei den Dateityp Perl (102) geben, das macht SparkFS schon für mich
[*]Dann das Word 2007 XML Dokument auf SparkFS ziehen, das ist ein Ziparchiv und dadurch wird es für docx2txt zu einen Verzeichnis, Stichwort Imagedatei.
[*]TaskWindow öffnen und in das Verzeichnis mit der Worddatei wechseln (*dir, "Set work directory" und so weiter)
[*]Wenn das Dokument foo/docx heißt, dann in der Kommandozeile "docs2txt/pl foo.docx" eingeben, also "/" durch "." ersetzen und dann sollte die Datei foo/txt erstellt werden.
[*]Nun muss man nur noch die UTF-8 Zeichen entfernen, zum Beispiel mit meinen StrongED Skript utf8tolatin1 (sed, auf Anfrage)
[*]Die Bilder findet man im Archiv in word.media
[/list]
Das ganze müsste auch ohne SparkFS gehen, dann muss man das Dokument den Dateityp Archive (ddc) geben und zum Beispiel mit Infozip in ein Verzeichnis auspacken. Beim Aufruf muss man dann das Verzeichnis nennen. Eigentlich kann docx2txt selber auspacken, aber Perl will foo.docx mitgeteilt bekommen und mein unzip will foo/docx zum Auspacken. Diesen bekannten UnixLib Mist könnte man zwar lösen, aber mit SparkFS muss man nichts am Kode ändern und das Programm ist noch recht jung und eventuell kommen da noch einige Versionen.
Auf ähnliche Weise sollte man auch OpenDocument Texte (.odt) vom OpenOffice zu Text machen können. Da kenne ich aber kein Tool für. Ist aber auch ein Zip Archiv und wer benutzt schon OpenOffice, ist ja kostenlos und damit wertlos, nicht von Microsoft und schon gar nicht Word, iiieee! ;-)
Text von .docx lesen
Moderator: Patrick