Antal ord i .doc/.docx

Tags:    php

Hej Udviklere

Jeg har brug for at tælle ord/tegn i et Word-dokument, jeg har prøvet med file_get_contents men den er omkring 1000 ord fra det Word siger og det skal gerne være rimelig præcist.

Mvh. Andreas Voss



2 svar postet i denne tråd vises herunder
1 indlæg har modtaget i alt 10 karma
Sorter efter stemmer Sorter efter dato
Docx varianten:

1 - Udpak filen - (det er en zip fil)
2 - Åben "docProps/app.xml"
3 - Fortolk xml-data (<Properties><Words>XX</Words></Properties> )

Edit:

Ønsker du det ultimative lappeløsningsprojekt for .doc filer:

http://forums.devshed.com/php-development-5/using-php-to-get-a-word-count-of-a-msword-55695.html

Det er ikke for sarte nerver. Det kræver en windowsbaseret server, med word installeret...



Indlæg senest redigeret d. 06.02.2012 15:48 af Bruger #955
Det er fordi, at det du læser med file_get_contents fra et .doc eller .docx dokument indeholder en hel masse andet end bare teksten. Den indeholder meta info om skrifttype, størrelse, side opsætning og meget meget mere.

For at lave en holdbar løsning skal du lave en analyse af hvad der er reel tekst og hvad der er information om teksten. Det er nok lettest med .docx filer, da det er XML output.

Du kan evt google specifikationer for de forskellige formater, men jeg tror hurtigt at du dropper projektet igen - det bliver nok ret omfattende. :-)



t