Erledigt: .pdf-Dateiformat

 


Dollr
Gast

21.01.09
10:53 Uhr
:hühuhu

mir liegen einige .PDFs (Microsoft Word 2007-Exporte / PDF-Version 1.5) vor, welche
serverseitig verarbeitet werden sollen; mittels PHP's gzuncompress() bringe ich das
„Textobjekt“ im .PDF (stream *** endstream) wieder in den Originalzustand und habe
somit die spezifische Textsyntax

...
BT
/F3 11.04 Tf
1 0 0 1 76.104 687.34 Tm
[(St)-5(ellenaus)6(s)5(chr)6(eib)-2(un)4(g)] TJ
ET
...


bestimme textauszüge sollen nun extrahiert werden - jene, die „fett“ sind;
wie <b>Blabla..</b> in HTML ...


also, ... welche Ziffer, Zahl ... Buchstabe beginnt & beendet die (Fett-)Formatierung innerhalb der PDF-Syntax?




Adobe's PDF Reference – steht da was? planlos


brain
Link zu diesem Beitrag in die Zwischenablage kopieren
Dollr
Gast

21.01.09
15:27 Uhr
aha! -)

... zugeteilte „ID“ (F1, F7, F4, ...) der Schriftart (z.B. „Century Gothic Bold“ )
herauslesen, & die entsprechenden Blöcke sammeln (...lassen).

/F2
(.*)
/Fx

... & alle Zeichen innerhalb der Klammern zusammenfügen.
Link zu diesem Beitrag in die Zwischenablage kopieren
 
#