PDF de programación - El Software libre y la lingüística

Imágen de pdf El Software libre y la lingüística

El Software libre y la lingüísticagráfica de visualizaciones

Publicado el 30 de Abril del 2019
753 visualizaciones desde el 30 de Abril del 2019
34,5 KB
11 paginas
Creado hace 23a (01/01/2001)
El Software libre y la

lingüística

Maria Francisca Ribeiro de Araujo Santo

Orcero

FCLAR/UNESP (Brasil)

[email protected]

David Santo Orcero

Consultor de soluciones con software libre

[email protected]

La sociolingüística es un área en la que la informática aún no ha
penetrado completamente. Los autores de este trabajo hemos intentado
informatizar una investigación sociolingüistica completa usando
software libre en todos los lugares donde esto ha sido posible, incluso
implementando software en alguno de los pasos. En este trabajo
estudiaremos las ventajas de la informatización con software libre de la
sociolingüsitica, qué software está disponible, cual ha sido nuesta
experiencia, y aquellos puntos donde todavía no existe reemplazo al
software propietario.

1. Introducción al problema de la informática y

1

la sociolingüística

El Software libre y la lingüística

La sociolingüística se encuentra con dos problemas serios en la investigación de
campo, que son la grabación y el almacenamiento de datos del audio. Hasta ahora, la
grabación y el almacenamiento de datos de investigaciones de campo en lingüística se
ha realizado por medio de las cintas cassettes. Esto hace al procedimiento de
transcripción fonética extremadamente complejo y engorroso, debido al ruido propio
de las cintas, a la pérdida de calidad de las grabaciones por su uso, con la pérdida de
datos invaluables para la ciencia de hablas, de acentos y hasta de lenguas que han
desaparecido o están en vias de desaparición, y las cintas con las conversaciones con
los hablantes se estan degradando, perdiendo toda la información.

La propia investigación y transcripción fonética de las cintas es destructiva: el
movimiento de ir y venir con la cinta cassette, muchas veces, causa la ruptura de la
cinta y la pérdida irrecuperable de los datos grabados. Hacer copias múltiples de las
cintas cassettes presenta disminuciones de la calidad de la cinta original, además de que
la copia es siempre de peor calidad que el original; además de esto, las cintas son
vulnerables al moho con el tiempo cuando no son bien conservadas. Dependiendo del
alcance de la investigación, el número de cintas puede llegar a cantidades realmente
enormes y la gestión de estos grandes volúmenes de datos de audio se complica mucho.

Por último, a pesar de que automatizáramos el proceso de recogida de datos, el
procesamiento de los datos es aún engorroso y propenso a fallos. El único programa
existente que estudia las correlaciones entre datos lingüisticos, el VARBRUL, es un
programa de MS-DOS de código cerrado, lento y muy poco amigable para el usuario.

Este trabajo también corresponde al aspecto informático de una investigación realizada
sobre un dialecto hablado en Caxias, Brasil, una pequeña ciudad de 40000 habitantes,
la mayor parte de ellos ancianos, por un impresionante flujo migratorio de los jóvenes a
ciudades que presentan posibilidad de empleo, que ha hecho que la población de la
ciudad caiga a su tercera parte en quince años. Este trabajo de investigación ha sido
realizado en su integridad con herramientas libres, para analizar la posibilidad de
informatizar todo el proceso de colecta y gestión de datos, así como publicación de los
resultados usando solo software libre.

Este trabajo ha sido financiado parcialmente por la FAPESP, organización de la que
MFRASO es becaria de investigación.

2. Descripción del problema de las cintas

La cinta ha sido hasta el momento un elemento indispensable en las grabaciones de

2

datos sociolingüísticos. No queremos negar su gran importancia en el pasado, pero
tampoco queremos negar algunos problemas inherentes a su uso, entre los que los más
comunes son:

El Software libre y la lingüística

• Las cintas se estropean fácilmente con el movimiento continuado de avanzar y

retroceder.

"¡La cinta se rompió exactamente en el lugar donde yo necesitaba oír la grabación
una vez más!" "¿Y ahora? ¡Los hablantes hace tiempo que murieron!" "Perdí el
trabajo de un año! Yo intenté encolar los puntos de la cinta con un cinta adhesiva,
pero no se quedó bien". Ésas son algunas frases de desesperación por perder los
datos de una investigación por rotura de la cinta. Obtener nuevos datos no es una
tarea fácil, y en el caso de comunidades de difícil acceso, en vías de extinción o
extintas es imposible, y esa parte de la cultura de la humanidad se habrá perdido para
siempre. Ir al campo presupone disponer de tiempo, paciencia y habilidad de trabajar
con una comunidad de hablantes (Labov 1994). Muchas veces los hablantes no
aceptan a ser entrevistados temerosos de represalias políticas, lo que hace los datos
difíciles de conseguir aunque la comunidad que posea esa variante siga viva.

• Con el tiempo, las cintas van perdiendo en calidad, aunque no se usen.

Aunque se tomen los cuidados necesarios en la conservación de las cintas
magnéticas, el tiempo acaba por destruir la calidad de las cintas y esto es inevitable.

• Las cintas son sensibles a la humedad, al calor y los campos magnéticos, aunque

sean campos pequeños.

El moho es el principal enemigo de las cintas magnéticas que se quedan guardadas
por mucho tiempo, llegando incluso a destruirlas. Para resolver ese tipo del
problema, es importante que un especialista realice una limpieza periódica de la
superficie de la cinta. Aun así, una limpieza cuidadosa es económicamente inviable,
por la gran cantidad de metros de cinta involucrados. Por ello, los datos terminan
perdiéndose dentro de los laboratorios.

• Las cintas ocupan mucho espacio físico.

Para grabar un hablante, se usa una cinta de 60 minutos, por lo menos. Multiplicando
esos minutos por 12, para construir la muestra de investigación más simple posible
con representatividad, tendremos el equivalente de 720 horas de grabaciones que
ocuparán 12 cintas, por lo menos. Si la muestra crece, como son las muestras

3

dialetológicas (cf. Ferreira &Cardoso 1994), esa equivalencia se triplica y los
perjuicios serán, entonces, la falta del espacio en los laboratorios, la conservación de
las cintas (comentado en (c)) y su distribución.

El Software libre y la lingüística

• La copia es siempre peor que el original.

Así como las cintas se pierden con el tiempo, se dañan también con el uso. Lo peor
es que la copia es siempre es de peor calidad que el original. La calidad de la
grabación y los datos lingüísticos quedan comprometidos, y siempre se degradan.

3. Los formatos digitales libres, la solución
definitiva.

Los problemas mencionados arriba pueden resolverse con el uso de formatos digitales
para grabar, copiar, guardar y distribuir datos, con alta calidad y mayor comodidad de
manipulación de los mismos por parte del investigador. Las ventajas principales son:

• Podemos adelantar y retroceder tantas veces como queramos el sonido para

escucharlo cuantas veces queramos, sin el riesgo de dañar el medio.

Al contrario de las cintas magnéticas que pueden romperse durante ese
procedimiento, los datos digitales pueden adelantarse y retrocederse sin problemas.
Los datos digitales no pierden calidad por este proceso.

• Los datos digitales se degradan muy poco con el tiempo.

Los datos digitales prácticamente no se dañan con el tiempo. La vida de una cinta
DAT, o de un CD-ROM bien cuidados son mas largas que la de una cinta. Además,
como las copias recuperan la calidad del original, sacando copias nuevas cada 2 o 3
años y reemplazándolas por los originales aseguraremos preservar los datos tanto
tiempo como queramos.

• Existen medios digitales que se resisten a la humedad y a los campos magnéticos

fuertes.

4

El Software libre y la lingüística

La tecnología digital ha estado desarrollando mucho en este últimos seis años y, hoy,
nosotros podemos encontrar en el mercado formatos bastantes resistentes, como es el
caso de los CD-ROM industriales. Con esos formatos, los datos en ellos
almacenados no pierden. Los CDs grabables son mucho más delicados, y no resisten
la humedad -aunque la resistan mejor que las cintas de audio-, pero si los campos
magnéticos fuertes.

• En espacios pequeños podemos tener grandes cantidades de grabaciones de

hablantes.

En el mundo moderno, la falta de espacio es un problema que nos afecta
directamente, sobre todo cuando estamos hablado varias horas de horas de
grabaciones para cada hablante, con cientos de hablantes. En un solo CD-ROM, en
formato mono -suficiente para un hablante, ya que nos interesa la calidad del sonido,
no el estereo- podemos ahorrar el espacio físico de aproximadamente 12 o más cintas
cassettes de 60 minutos, dependiendo de tipo de grabación seleccionada.

• Y el más importante: la copia tiene la misma calidad que el original.

Al contrario de las cintas magnéticas, los datos digitales no pierden su calidad
cuando se copian. La calidad se queda así como en el original y, haciéndo copias de
seguridad de los datos guardados, estamos seguros que los datos nunca se perderán.
Este procedimiento es más simple y mucho más barato económicamente que las
limpiezas tradicionales de las cintas cassettes para quitar humedad.

El hecho de que el formato digital sea libre es fundamental si pensamos dentro de una
década, o un siglo, cuando no queden hablantes vivos del dialecto estudiado, o sea
necesario hacer un estudio diacrónico -estudio de la evolución temporal de un dialecto-.
El formato debe ser abierto, para que en el futuro los datos sean legibles por los
investigadores, y libres, para que no sea delito construir un reproductor de dichos
formatos.

4. Formato digital y medio digital escogido.

Como medio digital hemos escogido el CD-ROM grabable, por su alta capacidad, bajo
precio y porque las copias son iguales al original. El problema de ser el CD-ROM
grabable sensible a perforaciones, suciedad y humedad se ha resuelto sacando varias

5

El Software libre y la lingüística

copias de los datos, y guardándolos en lugares distintos. Solo se echa mano de las
copias guardadas para sacar copias de uso, con el matiz de que
  • Links de descarga
http://lwp-l.com/pdf15805

Comentarios de: El Software libre y la lingüística (0)


No hay comentarios
 

Comentar...

Nombre
Correo (no se visualiza en la web)
Valoración
Comentarios...
CerrarCerrar
CerrarCerrar
Cerrar

Tienes que ser un usuario registrado para poder insertar imágenes, archivos y/o videos.

Puedes registrarte o validarte desde aquí.

Codigo
Negrita
Subrayado
Tachado
Cursiva
Insertar enlace
Imagen externa
Emoticon
Tabular
Centrar
Titulo
Linea
Disminuir
Aumentar
Vista preliminar
sonreir
dientes
lengua
guiño
enfadado
confundido
llorar
avergonzado
sorprendido
triste
sol
estrella
jarra
camara
taza de cafe
email
beso
bombilla
amor
mal
bien
Es necesario revisar y aceptar las políticas de privacidad