COMO INDEXAR TU PROPIA COLECCION ================================ NOTA: para pruebas tontas, descomprimir el cranfield.tgz adjunto (tras haber borrado los restos de otros cranfield anteriores) NOTACION: $prise_2 -> path al dir. raiz prise_2/ $workdir -> dir. donde crearemos el indice [] mkdir $prise_2/prise_index/$dir_idx (el $workdir) [] mkdir $workdir/data/ [] copiar/mover a $workdir/data/ los .sgml a indexar [] copiar el .dtd asociado a dichos .sgml a $workdir [] comprobar que los .sgml se correspondan con el .dtd: nsgmls -s *************** en adelante, ver tambien indexing.html ****************************** Dentro de $workdir ... [] create a "list" file (fichero diciendo que .dtd se corresponde con cada .sgml) [] create an "sgmls.actions" file (basicamente, que campos del sgml s/n se van a indexar y quien es el DOC_ID) [] create a "title_tags" file (indicar que tags delimitan los titulos) [] create a "commonwords" file (fichero de stopwords) [] create an "options.spec" file (opciones de indexacion) [] create a "fields.spec" file (campos sobre los que se permiten acotar busquedas????) [] comprobar que en $prise_2/bin/build.script.sh la variable DISTRIBUTION_ROOT tenga el path correcto a $prise_2 [] ejecutar desde el $workdir 'build.script.sh . list' NOTA: ver AVISOS.TXT en /prise_index/src/bin/rebuid.tmm/rebuild.tmm.c -> index_weight()