PHP - Extraer texto de Word desde una web externa

 
Vista:
Imágen de perfil de siREZ
Val: 23
Ha disminuido su posición en 95 puestos en PHP (en relación al último mes)
Gráfica de PHP

Extraer texto de Word desde una web externa

Publicado por siREZ (203 intervenciones) el 14/08/2013 17:20:41
Cordial saludo

quiero extraer un texto de un documento en Word desde una pagina web externa. Utilizo la siguiente función:

function Obtener_contenidos($url,$inicio='',$final){
$source = @file_get_contents($url)or die('se ha producido un error');
$posicion_inicio = strpos($source, $inicio) + strlen($inicio);
$posicion_final = strpos($source, $final) - $posicion_inicio;
$found_text = substr($source, $posicion_inicio, $posicion_final);
return $inicio . $found_text .$final;
}

$url = "http://www.pagina a consultar.doc";


$texto_extraido = Obtener_contenidos($url,'body','/body');

le doy algo de formato.........

$texto_extraido;= nl2br($texto_extraido;); //Transformar todos los saltos de linea en tag

echo $texto_extraido;


Lo que sucede es que me imprime unos caracteres raros al principio y al final.

como hago para eliminar estos caracteres (que son propios de MS-Word).


algunos caracteres son como estos:

ð¿9bjbjöàöà
4T”Š”ŠË.B
ÿÿÿÿÿÿ·” ” Û"ýÿÿÿÿ---8e4™<- /tÕÕÕÕÕ°°°Ÿ.¡.¡.¡.¡.¡.¡.$”0¢63JÅ. #°° # #Å.ÕÕÛÚ.2&2&2& #|ÕÕŸ.2& #Ÿ.2&2&Ç()Õÿÿÿÿ°$©15Î-$dß(‹.ð.0 /ç(,€3€$|€3)€3)x°n¼2&Úd> b°°°Å.Å.ü$6°°° / # # # #ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ€3°°°°°°°°°”
¡:

Deseo extraer el texto puro del documento de Word


gracias.


siREZ
Valora esta pregunta
Me gusta: Está pregunta es útil y esta claraNo me gusta: Está pregunta no esta clara o no es útil
0
Responder
Imágen de perfil de terra

Extraer texto de Word desde una web externa

Publicado por terra (62 intervenciones) el 15/08/2013 01:42:57
Hola siREZ,
Mirá si te sirve algo asi...

1
2
3
4
5
6
7
8
9
10
11
$String = str_replace(array(‘á’,'à’,'â’,'ã’,'ª’,'ä’),”a”,$String);
$String = str_replace(array(‘Á’,'À’,'Â’,'Ã’,'Ä’),”A”,$String);
$String = str_replace(array(‘Í’,'Ì’,'Î’,'Ï’),”I”,$String);
$String = str_replace(array(‘í’,'ì’,'î’,'ï’),”i”,$String);
$String = str_replace(array(‘é’,'è’,'ê’,'ë’),”e”,$String);
$String = str_replace(array(‘É’,'È’,'Ê’,'Ë’),”E”,$String);
$String = str_replace(array(‘ó’,'ò’,'ô’,'õ’,'ö’,'º’),”o”,$String);
$String = str_replace(array(‘Ó’,'Ò’,'Ô’,'Õ’,'Ö’),”O”,$String);
$String = str_replace(array(‘ú’,'ù’,'û’,'ü’),”u”,$String);
$String = str_replace(array(‘Ú’,'Ù’,'Û’,'Ü’),”U”,$String);
$String = str_replace(array([','^','´','`','¨','~',']),",$String
Valora esta respuesta
Me gusta: Está respuesta es útil y esta claraNo me gusta: Está respuesta no esta clara o no es útil
0
Comentar