PHP - Extraer texto de Word desde una web externa

   
Vista:
Imágen de perfil de siREZ

Extraer texto de Word desde una web externa

Publicado por siREZ (201 intervenciones) el 14/08/2013 17:20:41
Cordial saludo

quiero extraer un texto de un documento en Word desde una pagina web externa. Utilizo la siguiente función:

function Obtener_contenidos($url,$inicio='',$final){
$source = @file_get_contents($url)or die('se ha producido un error');
$posicion_inicio = strpos($source, $inicio) + strlen($inicio);
$posicion_final = strpos($source, $final) - $posicion_inicio;
$found_text = substr($source, $posicion_inicio, $posicion_final);
return $inicio . $found_text .$final;
}

$url = "http://www.pagina a consultar.doc";


$texto_extraido = Obtener_contenidos($url,'body','/body');

le doy algo de formato.........

$texto_extraido;= nl2br($texto_extraido;); //Transformar todos los saltos de linea en tag

echo $texto_extraido;


Lo que sucede es que me imprime unos caracteres raros al principio y al final.

como hago para eliminar estos caracteres (que son propios de MS-Word).


algunos caracteres son como estos:

ð¿9bjbjöàöà
4T”Š”ŠË.B
ÿÿÿÿÿÿ·” ” Û"ýÿÿÿÿ---8e4™<- /tÕÕÕÕÕ°°°Ÿ.¡.¡.¡.¡.¡.¡.$”0¢63JÅ. #°° # #Å.ÕÕÛÚ.2&2&2& #|ÕÕŸ.2& #Ÿ.2&2&Ç()Õÿÿÿÿ°$©15Î-$dß(‹.ð.0 /ç(,€3€$|€3)€3)x°n¼2&Úd> b°°°Å.Å.ü$6°°° / # # # #ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ€3°°°°°°°°°”
¡:

Deseo extraer el texto puro del documento de Word


gracias.


siREZ
Valora esta pregunta
Me gusta: Está pregunta es útil y esta claraNo me gusta: Está pregunta no esta clara o no es útil
0
Responder
Imágen de perfil de terra

Extraer texto de Word desde una web externa

Publicado por terra (62 intervenciones) el 15/08/2013 01:42:57
Hola siREZ,
Mirá si te sirve algo asi...

1
2
3
4
5
6
7
8
9
10
11
$String = str_replace(array(‘á’,'à’,'â’,'ã’,'ª’,'ä’),”a”,$String);
$String = str_replace(array(‘Á’,'À’,'Â’,'Ã’,'Ä’),”A”,$String);
$String = str_replace(array(‘Í’,'Ì’,'Î’,'Ï’),”I”,$String);
$String = str_replace(array(‘í’,'ì’,'î’,'ï’),”i”,$String);
$String = str_replace(array(‘é’,'è’,'ê’,'ë’),”e”,$String);
$String = str_replace(array(‘É’,'È’,'Ê’,'Ë’),”E”,$String);
$String = str_replace(array(‘ó’,'ò’,'ô’,'õ’,'ö’,'º’),”o”,$String);
$String = str_replace(array(‘Ó’,'Ò’,'Ô’,'Õ’,'Ö’),”O”,$String);
$String = str_replace(array(‘ú’,'ù’,'û’,'ü’),”u”,$String);
$String = str_replace(array(‘Ú’,'Ù’,'Û’,'Ü’),”U”,$String);
$String = str_replace(array([','^','´','`','¨','~',']),",$String
Valora esta respuesta
Me gusta: Está respuesta es útil y esta claraNo me gusta: Está respuesta no esta clara o no es útil
0
Comentar