Introducción a las folksonomías, ventajas e inconvenientes
Con este artículo inició una serie dedicada a las folksonomías, donde veremos sus principales características, ventajas e inconvenientes en comparación con otros sistemas de clasificación de información, y diferentes técnicas y propuestas existentes en la bibliografía que permiten paliar en mayor o menor medida algunos de sus problemas, así como completar sus características con nuevas opciones. Todo esta información está relacionada y sacada en mayor o menor medida de la tesis en la que estoy trabajando, así que espero que la información sea divulgativa y no aburrir demasiado a nadie.
Desde que nació la World Wide Web (WWW) las necesidades de clasificar la información han ido incrementándose continuamente. En su primera época la generación de información era responsabilidad únicamente de los propietarios de las webs y su clasificación estaba principalmente basada en un conjunto de categorías (taxonomías), bien en los propios webs, o bien en los diferentes buscadores basados en directorios que había en esa época, como el directorio de Yahoo .
A comienzos de este siglo surgieron dos cambios sustanciales en la evolución de la Web. Por una parte Tim Berners-Lee publicó su visión de lo que debería ser la Web del futuro, a la que llamó la Web Semántica [1], basada en una web en la que toda la información tiene una información semántica asociada que permite que sea entendida y manejada no solo por los humanos como hasta entonces, sino también por las máquinas, abriendo un gran abanico de posibilidades de aplicación. Desde entonces se han realizado continuos avances, pero aún hoy su aplicación sigue siendo muy compleja, por lo que su ámbito de aplicación está aún hoy lejos del uso diario, limitado principalmente al entorno teórico y académico, y en menor medida a determinados ámbitos empresariales. Por otra parte la Web experimentó una importante revolución de la mano de las denominadas Webs Sociales (Web 2.0), mediante las cuales los usuarios pasaron de ser destinatarios de la información a ser generadores, apareciendo multitud de diferentes aplicaciones como los Blogs, Wikis, y redes sociales como Flickr, Facebook, etc. En este ámbito fue necesario ofrecer a los usuarios mecanismos mediante los que pudieran clasificar de forma fácil la información, más flexibles que los sistemas anteriores basados en taxonomias y lejos de la complejidad y el formalismo de otros sistemas de clasificación como los basados en ontologías, utilizados en la Web Semántica. El sistema elegido por la mayoría de las webs ha sido la clasificación de información en base a la etiquetación de contenidos mediante un vocabulario no controlado, que permite a los usuarios asignar etiquetas de texto libre a los recursos que forman parte del sistema, ya sean documentos, fotos, vídeos, páginas web, o cualquier otro recurso en general.
La principal ventaja de este tipo de sistemas basados en la asignación de etiquetas, también llamados habitualmente folksonomías [2], reside en que los usuarios no tienen ninguna limitación a priori para realizar la clasificación. Únicamente deben escribir un conjunto de etiquetas y asignarlas al recurso. Fruto de sus etiquetaciones y de las del resto de usuarios se crea una representación semántica tanto de los recursos etiquetados, como de las propias etiquetas utilizadas.
Las folksonomías suelen dividirse en dos tipos distintos: broad y narrow. En las folksonomías de tipo broad cualquier usuario puede etiquetar cualquier recurso con cualquier etiqueta. En las de tipo narrow únicamente el autor, o un reducido número de usuarios, pueden asignar etiquetas a un recurso. Esto produce que la semántica de los recursos dependa únicamente de las etiquetas asignadas por este reducido grupo de usuarios, y que la emergencia de la semántica de las etiquetas sea más costosa, al existir un menor número de asignaciones de etiquetas a recursos.
![]() |
![]() |
Aunque las folksonomías se han convertido en un estándar de facto en la clasificación de información en la web actual, tienen importantes inconvenientes [3] si se comparan con los sistemas de clasificación formales. Estos problemas se deben principalmente a que están basadas en vocabularios no contralados, que producen diferentes problemas como la utilización de variaciones sintácticas de una misma etiqueta, el uso de etiquetas que pueden significar diferentes cosas (polisemia), diferentes etiquetas que pueden significar los mismo (sinónimos), o etiquetas con diferente granularidad. Así, por ejemplo, dos usuarios pueden utilizar las etiquetas «eiffel» y «eifel» para etiquetar una fotografía de la torre Eiffel en París, pueden utilizar una misma etiqueta «apple» para clasificar dos recursos distintos, como las fotos de una manzana y un ordenador, pueden asignar las etiquetas «photography» and «photo» a un mismo recurso, o clasificar la foto de un gato con las etiquetas «animal» o «cat».
Otro problema de las folksonomías está relacionado con el hecho de que cuando un usuario asigna una etiqueta a un recurso, esta etiqueta puede ser de diferentes tipos según sea la intención del usuario. Un usuario puede asignar etiquetas descriptivas a un recurso y colaborar así a representar la semántica del mismo, pero también puede asignarle etiquetas de uso personal como (toread, myjob, etc.). Estas etiquetas no representan la semántica de los recursos y tampoco es posible obtener información semántica suya a partir de los recursos que etiquetan. Las folksonomías están basadas, por lo tanto, en una combinación de etiquetas que pueden utilizarse para clasificar información de forma colectiva y otros términos que son únicamente útiles para sus autores.
Todos estos problemas hacen que la navegación utilizando las etiquetas asignadas a los recursos y la búsqueda de información en las folksonomías sea menos efectiva que en los sistemas de clasificación formales. Por ejemplo, al buscar fotografías de manzanas, utilizando como búsqueda aquellos recursos etiquetados con «apple», se obtendrán fotografías de manzanas y ordenadores, y al buscar fotografías de la torre Eiffel utilizando la etiqueta «eiffel», no se obtendrán fotografías etiquetadas con «eifel». Como resultado, los usuarios disponen de una manera muy sencilla de clasificar la información pero la recuperación de esta información es más compleja o a veces, no es posible obtenerla de forma directa.
En el lado opuesto de las folksonomías, se encuentran los sistemas de clasificación formales como los utilizados en la Web Semántica. La Web Semántica utiliza Ontologías [4] como herramienta de representación del conocimiento, permitiendo describir cada recurso de la Web según un vocabulario controlado y que idealmente debería ser consensuado entre todos los usuarios con el fin de tener un conocimiento compartido.
Las ontologías y las folksonomías ofrecen posibilidades de clasificar y representar la información de forma muy distinta. Por un lado las ontologías están basadas en un sólido modelo formal como la Lógica Descriptiva, y por otro, las folksonomías están basadas en la emergencia de información a partir del etiquetado colectivo realizado por los usuarios. Ambas técnicas tienen sus puntos fuertes, pero sin embargo tienen también sus inconvenientes.
Los principales problemas de los sistemas de clasificación formales como las ontologías, vienen derivados de la potencia de expresividad y el formalismo que poseen, que hacen que éstas sean, en muchos casos, muy complicadas de crear y utilizar, además de presentar importantes problemas de escalabilidad [5].
Es muy complicado, por ejemplo, que los usuarios que generan contenidos en una red social, que normalmente no son expertos en la representación del conocimiento, sean capaces de clasificar cada contenido que generan de acuerdo a una ontología extensa repleta de opciones de clasificación, al igual que también es complicado representar a priori en una ontología toda la amplitud del dominio de conocimiento susceptible de ser utilizado, y además hacerlo de forma consensuada con otras redes sociales relacionadas. No hay que olvidar también que raramente la estructura de conocimiento que se quiere representar en un sistema es estática, sino que las necesidades varían a lo largo del tiempo, haciendo necesaria una supervisión continua de los criterios de clasificación y su adaptación a las necesidades de cada momento.
En el caso de las folksonomías tienen la importante desventaja de que cuando se trabaja con volúmenes grandes de información y el número de etiquetas aumenta, la calidad de éstas puede bajar considerablemente [3], debido a la utilización de palabras mal escritas, el uso de plurales en vez de singulares, el uso de espacios o guiones entre palabras, etc.
Al aumentar el número de etiquetas diferentes, también se va haciendo más compleja la navegación por ellas para llegar a recursos que puedan resultar de interés. Por último, la carencia de cualquier tipo de formalismo hace que no sea posible realizar clasificaciones de forma sencilla, ni realizar inferencias a partir de las etiquetas más complejas que la basada en la relación de contenidos a partir de las etiquetas comunes.
Todo esto hace pensar que sería conveniente disponer en los sistemas de información Web actuales, de mecanismos que permitan aprovechar lo mejor de ambos sistemas de clasificación, ofreciendo la posibilidad de estructurar el conocimiento de un modo formal mediante ontologías, pero sin perder la dinamicidad y simplicidad que aporta a los usuarios el uso de folksonomías.
En próximos artículos veremos algunas técnicas y propuestas que permiten abordar estos problemas.
Referencias
- [1] T. Berners-Lee, J. Hendler, and O. Lassila. “The Semantic Web”. Scientific American, May, 2001.
- [2] T. Vander Wal, “Folksonomy”, Retrieved February 2nd, 2007, from http://vanderwal.net/folksonomy.html
- [3] M. Guy, and E. Tonkin, “Folksonomies – Tidying up Tags?” DLib Magazine, vol. 12, no. 1, 2006.
- [4] T. Gruber, “A Translation Approach to Portable Ontology Specifications”, Knowledge Acquisition, vol. 5, no.2, 199-220, 1993.
- [5] C. Shirky, «Shirky: “Ontology is overrated – categories, links, and tags,» 2005. [Online]. Available: http://shirky.com/writings/ontology_overrated.html
Muy bueno! Espero ansioso las próximas entregas, ¿tratarás relación entre tags?
Respetuosamente le sugiero utilizar en este post el término indización en vez de clasificación.
En términos de documentación, clasificación es un símbolo, que permite ubicar o localizar físicamente un documento y así facilitar la recuperación para su uso.
Mientras que indización es el proceso que determina los términos que representan el contenido de un documento.