Herramientas estadísticas bajo licencia G.P.L.
Virgilio Gómez Rubio
[email protected]
Octubre de 1.999
Este artículo pretende ser una pequeña introducción a lo que es el software bajo licencia G.P.L. (o de "dominio públi-
co"), ventajas y desventajas de usarlo. Además, se hará una pequeña descripción de varias herramientas estadísticas
que han sido desarrolladas bajo esta licencia.
Índice General
1 La licencia G.P.L.
2 Software libre en la Universidad
3 Programas estadísticos de libre distribución.
3.1 OCTAVE . . . .
. . .
. . . .
. . . .
. . . .
. . .
. . . .
. . . .
. . . .
. . . .
. . .
. . . .
. . . .
3.2 R .
. . . .
. . . .
. . .
. . . .
. . . .
. . . .
. . .
. . . .
. . . .
. . . .
. . . .
. . .
. . . .
. . . .
3.3 ESS . . .
. . . .
. . .
. . . .
. . . .
. . . .
. . .
. . . .
. . . .
. . . .
. . . .
. . .
. . . .
. . . .
1
2
3
3
6
7
3.4 PSPP . .
. . . .
. . .
. . . .
. . . .
. . . .
. . .
. . . .
. . . .
. . . .
. . . .
. . .
. . . .
. . . .
11
4 Texto de la Licencia G.P.L.
5 Referencias
1 La licencia G.P.L.
13
20
Richard Stallman, el autor del editor EMACS, comenzó hace ya bastanes años un proyecto que el llamó GNU (GNU’s
Not Unix), en el que proponia crear un sistema UNIX (núcleo y aplicaciones) que fuese accesible a todo el mundo. La
licencia de uso que él proponía incluía libertad para usar el programa y modificar los fuentes. De aquí surgió la G.P.L.
(General Public License) y la Free Software Foundation (F.S.F.), que el propio Stallman fundó.
La F.S.F. es una fundación sin ánimo de lucro que se dedica a promover el software libre (es decir, bajo la G.P.L.). De
hecho, el Proyecto GNU es uno de los proyectos a los que da soporte. La F.S.F. distribuye estos programas, manuales
impresos, camisetas y otros artículos.
Todo el software que se desarrolla bajo la ayuda de la F.S.F. cumple la G.P.L. Esta licencia crea un marco legal que
permite la copia, modificación y distribución de programas. Todo el software que desarrolla la F.S.F. se hace bajo esta
licencia.
Las principales características de esta licencia son:
Su principal objetivo es permitir la libre distribución de programas, tanto ejecutables como fuentes.
El usuario tiene acceso a los fuentes, puede realizar modificaciones y redistribuir el programa resultante a
terceras personas, siempre y cuando se haga bajo esta misma licencia, se especifique el autor del código original
y los cambios realizados.
Para código objeto y ejecutable se ha de cumplir una de las siguientes condiciones:
2. Software libre en la Universidad
2
– Se incluye el código fuente.
– Se da la posibilidad de que en los próximos 3 años, el distribuidor proporcione los fuentes a un coste no
superior al de copia(es decir, precio de fotocopias, discos, gastos de envío,etc.).
– Se acompaña con una oferta de una tercera persona/entidad que sí que puede proporcionar los fuentes a
precio de copia. Esto sólo está permitido en el caso de redistribuciones de carácter no comercial.
Está prohibida la copia, modificación y redistribución de programas bajo licencia G.P.L. si no se hace bajo esa
misma licencia.
Si en un programa que hemos realizado sólo usamos programas bajo licencia G.P.L. en una parte de él, es posble
redistribuir el resto bajo cualquier otra licencia, pero si lo distribuimos todo junto ha de ser bajo la G.P.L.
No se pueden añadir restricciones adicionales o eliminar las que ya existen sin que el programa deje de porder
distribuirse con esta licencia.
Si por algún motivo, un juez u otra entidad de carácter legal determina que determinados programas deben
cumplir una serie de restricciones (p. ej., por problemas de patentes) que chocan con esta licencia, entonces no
será posible la redistribución de dicho código bajo esta licencia.
Es posible añadir una claúsula en la que se excluya la distribución de programas bajo esta licencia en aquellos
paises en los que sus leyes impidan de forma explícita algunos de los puntos de la misma.
Los programas se entregan, en principio, sin ningún tipo de garantía. Es posible, si el distribuidor así lo desea,
dar garantía, pero la G.P.L. no obliga a ello.
De aquí surge el concepto de software de "Dominio Público" o "Libre". De "Dominio Público" porque cualquiera
tiene acceso a él (al menos, todo el que tiene ordenador y acceso a Internet o el dinero suficiente para encargarlo por
correo a alguno de los distribuidores) y "Libre" en el sentido de que uno tiene los fuentes, puede modificarlos a su
gusto y redistribuirlo a terceras personas siempre que sea bajo esta misma licencia.
Muchas veces a este tipo de software se le llama "gratuito". Si bien es cierto, puesto que es posible obtenerlo sin coste
alguno en Internet, la licencia va mucho más allá, y decir tan sólo que este tipo de software es gratuito es dar una
definición equivocada e incompleta.
La redacción original de la licencia G.P.L. se encuentra en inglés, y no existe ninguna traducción oficial al castellano,
por lo que es posible (aunque no probable) una incorrecta interpretación del texto original. A pesar de esto, mi ntención
era dar una idea lo más aproximada posible a la licencia y su filosofía, que creo haber conseguido. Por tanto, al final
de esta ponencia se podrá encontrar el texto original.
2 Software libre en la Universidad
Este apartado ha sido desarrollado, principalmente, a partir de mi experiencia como actual alumno de la Facultad de
Matemáticas de la Universidad de Valencia, conversaciones con profesores y compañeros, y reflexiones personales.
Además, gran parte de este material está condicionado por el uso del sistema operativo Linux.
Existen muchos módulos en los actuales planes de estudio que requieren la realización de determinadas prácticas con
ayuda de un ordenador. Evidentemente también es necesario programas para el cacharro. Los paquetes comerciales
requieren el pago muchas veces de costosas licencias.
Por todos es sabido que los medios son limitados, y a veces resulta imposible obtener dichas licencias, a no ser por
los avatares del destino y la casualidad o la intervención de alguna empresa privada (comentar caso del programa de
simulación Arena).
Las principales ventajas que ofrece el software bajo G.P.L. (no sólo para la Universidad, sino en general) son:
3. Programas estadísticos de libre distribución.
3
Coste. Se puede obtener de forma gratuita.
Accesibilidad. A través de Internet o mediante compra de CDs por correo a precio de copia más gastos de envío.
Posibilidad de conseguir ayuda rápidamente: listas de correo, desarrolladores, etc.
Calidad. Muchas veces está desarrollado por profesores y/o estudiantes que trabajan o investigan sobre ese tema.
Otras veces incluso son programas maduros, están muy depurados y optimizados (p. ej., EMACS y GCC).
Desarrollo abierto. Muchas veces el código generado a partir de prácticas o trabajos desarrollados en clase,
puede añadirse a lo que ya existe.
Disposición del código fuente. El poder saber cómo funciona un determinado programa es un incentivo en
determinadas asignaturas (p. ej., sistemas operativos) y tiene un valor pedagógico incalculable.
Banco de pruebas muy amplio. Son programas que son usados por personas de todo el mundo que contribuyen
a su crecimiento y depuración.
Pero también existen una serie de factores negativos:
Software muchas veces poco conocido ya que no existe un distribuidor comercial que lo promocione y se
desarrolla "en pequeños círculos".
Poco amigable. En el sentido de que generalmente no existen vistosas interfaces gráficas y toda ha de hacerse
desde la línea de comando.
Su instalación y uso puede ser difícil para el usario novel.
El desarrollo suele ser lento y el programa puede pasar por etapas inestables.
Incompatibilidad de formatos. Esto puede que no sea aplicable a todo el software, pero sí en gran parte al
estadístico.
3 Programas estadísticos de libre distribución.
No existen muchos programas estadísticos bajo licencia G.P.L., y muchos de los que existen no pasan de calcular
pequeños estadísticos. Comentaré cuatro proyectos que me han parecido interesantes.
3.1 OCTAVE
Surgió inicialmente como un paquete de cálculo numérico similar a Matlab. Entre sus múltiples funcionalidades están
el álgebra básica, operaciones con matrices (sumas, productos, descomposiciones, etc.), dibujo de gráficas y superfi-
cies, resolución de sistemas de ecuaciones, etc. Las rutinas que incorpora para cálculo estadístico son relativamente
nuevas.
Dichas rutinas fueron desarrolladas por gente del Departamento de Estadística de la Universidad de Viena. Origi-
nalmente, formaban parte de un conjunto de rutinas para Octave llamado Octave-CI (que se puede conseguir en y
añadidas al "Contrib Octave Archive" (sito en una máquina de la Universidad de Vigo: ), aunque actualmente muchas
de estas rutinas (entre ellas las que nos interesan) han sido añadidas al paquete principal de Octave.
Éstas se encuentran divididas en 4 directorios dentro de la instalación original:
Base
Incluye multitud de estadísticos (media, varianze, covarianza, cuartiles, etc.) y varios métodos como los PP-
Plots y QQ-Plots.
3. Programas estadísticos de libre distribución.
4
Distributions
Rutinas sobre las distribuciones probabilísticas más conocidas, tanto discretas como continuas. Para cada una
de ellas existen 4 métodos (sustituir dist por el nombre de la distribución, p. ej., normal, chisquare o poisson):
– dist_cdf
Este calcula la función de probabilidad acumulada para un punto en concreto.
– dist_inv
Computa el cuántil asociado a x. Esta función es la inversa de **_cdf.
– dist_pdf
Calcula la función de densidad de probabilidad en un punto dado.
– dist_rnd
Genera observaciones aleatorias de la distribución dada.
Models
Varias rutinas para realizar regresiones logísticas.
Tests
Implementación de numerosos tests estadísticos: anova, manova, Kolmogoro
Comentarios de: Herramientas estadísticas bajo licencia G.P.L. (0)
No hay comentarios