Python - Ayuda con la segmentación de texto

   
Vista:

Ayuda con la segmentación de texto

Publicado por Eva (1 intervención) el 27/06/2016 17:57:04
¡Hola, buenas! Necesito ayuda con la segmentación de textos en Python, sin recursos de NLTK preferiblemente. Tengo una forma de segmentar un texto pero, no sé por qué, me da o error, o me dice que alguna de las variables no están definidas, o no funciona...etc. La forma es la siguiente:
1
2
3
4
5
6
7
8
9
10
import re
def tokenizar(texto):
      texto_tokenizado = []
      palabras = re.compile (r "[A-Z]{2,}(?![a-z])|[A-Z][a-z]+(?=[A-Z]|[\W%&'-]+")
      oracion = re.compile (r "[A-Z][^\.!?]*[\.?!])")
      oraciones_texto = re.findall (oracion, texto)
      for oracion in oraciones_texto:
            p = re.findall(palabras, oracion)
            texto_tokenizado.append(p)
      return texto_tokenizado

He probado diferentes cosas como cambiar la variable pero no me sale nada. Me da error.
Muchísimas gracias de antemano
Valora esta pregunta
Me gusta: Está pregunta es útil y esta claraNo me gusta: Está pregunta no esta clara o no es útil
0
Responder

Ayuda con la segmentación de texto

Publicado por Sebastian López Buriticá (17 intervenciones) el 26/09/2016 15:53:41
la expresión regular para identificar las palabras tiene un paréntesis sin cerrar, que corresponde al texto que quieres capturar, igual ocurre con la expresión para la oración y es que en este caso no existe el paréntesis de apertura.
Recuerda que esto paréntesis corresponde ala información que se quiere capturar.
Valora esta respuesta
Me gusta: Está respuesta es útil y esta claraNo me gusta: Está respuesta no esta clara o no es útil
0
Comentar