Suw Charman over there at Corante did a charming post on weblogs and taxonomies: Lumpers and Splitters. Interesting thoughts about taxonomies (hierarchical systems of categories for the classification of "stuff") and the tendency of a lot of people, to make up categories - which do not nessecarilly work well for other people. She suggests some categories for weblogs too, which, IMHO do not work that well (although I usually tend to aggree with Suw on nearly every issue). But I consider this a "normal" characteristic of all systems of categories.
The big problem with taxonomies: they don't work well with "normal people". Look at the complex hierarchies on a lot of peoples hard disks or mail-archives. Even those, who put a lot of effort into the planning of their personal filing hierarchy, are craving for better search engines. Why? Because most often, when they look for a specific document, they have to browse a lot of folders till they find it - if at all.
Hierarchies of categories (taxonomies) simply do not represent very well, how the human brain works. Its all about connections, all about associations in our brain. Thats what makes Google searching so succesfull. And thats what makes GMail (which does away with folders) so interesting as an email software (not "1G of FREE storage space ...).
It's the same with the categories in most Weblogs. After a short time its more of a hindrance that a help for the author and it's readerd. What is needed is a dynamic way, that looks at the connections betweens my postings and clusters them according to those connections and according to patterns in the text of the postings. Bayesian filtering may be a solution. Have to look into that a little bit more detailed ...
Suw's article reminds me of another nice saying: "There are two kinds of people: those, who like to put people in categeries and those, who see every one as an individual. I don't like the first category!"
Auf Deutsch ...
Suw Charman drüben bei Corante hat einen extrem charmanten Post über Weblogs und Taxonomien abgeliefert: Lumpers and Splitters. Lesenswerte (und unterhaltsam geschriebene) Gedanken über Taxonomien (hierarchische Systeme von Kategorien für die Klassifizierung von "Zeugs") und die Tendenz vieler Leute, Kategorien/Schubladen zu bilden - die für andere Leute nicht unbedingt verständlich und praktikabel erscheinen. Unter anderem schlägt sie ein paar einfache Kategorien für Weblogs vor, die IMHO nicht so wahnsinning hilfreich sind (obwohl ich sonst mit Suw fast immer einer Meinung bin). Das halte ich aber für "normal" bei Kategorien und Taxonomien.
Das große Problem mit Taxonomien: sie funktionieren für "normale Menschen" nicht sehr gut. (Ausnahme sind Wissenschaftler und sehr strukturiert, diszipliniert arbeitende Menschen wie Buchhalter.) Man sehe sich nur mal die komplexen Hierarchien von Ordnern auf den Festplatten oder in den Mail-Archiven mancher Leute an. Selbst die, die viel Gehirnschmalz und Energie in die Planung dieses "Aktenplans" stecken, schreien verzweifelt nach besseren Suchfunktionen. Warum? Weil sie meistens, wenn sie nach einem bestimmten Dokument suchen, Dutzende Ordner durchwühlen, bis sie es finden - wenn überhaupt. Und das trotz ausgeklügelter "Taxonomie".
Hierarchien von Kategorien (Taxonomien) passen nicht wirklich zur Arbeitsweise des menschlichen Gehirns. Im Gehirn geht es um Verbindungen und Assoziationen, keine scharfen Grenzen. Das ist es, was Google so erfolgreich macht. Und das ist es, was GMail (das keine Ordner kennt) u.a. so innovativ macht (nicht "1G of KOSTENLOSEM Speicherplatz ...).
Das selbe gilt für Kategorien in Weblogs. Kurze Zeit nach der Einrichtung sind sie oft mehr lästig als hilfreich für Leser und Author. Was ich in Blogs gerne hätte, ist ein dynamisches Verfahren, das sich die Verbindungen zwischen den Beiträgen ansieht und danach, sowie nach widerkehrenden Muster/Schlüsselworten in den Beiträgen clustert. Baysian filtering könnte ein Ansatz in dieser Richtung sein. Muss ich mir unbedingt mal mit etwas mehr Ruhe ansehen ...
Suw's Artikel erinnert mich an einen anderen niedlichen Spruch: "Es gibt zwei Kategorien von Menschen: die, die andere immer in Schubladen einordnen und die, die jeden als Individuum sehen. Die erste Kategorie mag ich persönlich überhaupt nicht!"
Oh, you've touched on some issues with categorisation that I want to cover in a future post.
Of course, although no system of categorisation can hope to create an accurate replication of how we organise data in our heads, there is value in attempting to classify things. In attempting to classify, we examine properties, question assumptions and are forced to consider metadata that might otherwise have escaped our notice. It may even be that the process of classification is more beneficial than the results.
What is important, though, is the creation of a common vocabulary, and classification can help with that, particularly if it is a collaborative process.
Posted by: Suw | Thursday, 29 July 2004 at 12:50
Suw: I could not aggree more ... especially on "It may even be that the process of classification is more beneficial than the results." and "classification can help with that, particularly if it is a collaborative process." But are we really talking about a taxonomy in this case? Is this not more of a "controlled vocabulary"or "thesaurus" (if I am including synonyms too)? Your talking about a "common vocabulary" yourself ...
Not, that I am a big friend of discussions on the semantics of terminology (*grin*). But there seems to be some rather important difference to me between a taxonomy, where every item belongs to a specific leaf in an elaborate tree of categories and a thesaurus, which i can use to "tag" an item with one (or more!) labels from a (similarily) elaborate set of key words.
My comment was meant only as an expression of a kind of uneasiness with taxonomies on the user-interface level. They are very valuable on the lower levels, though (under the hood).
Posted by: Markus Breuer | Monday, 02 August 2004 at 11:05
Quote: "Bayesian filtering may be a solution...."
Have a look at Autonomy (www.autonomy.com) white papers: Bayes + Shannon's information therema.
Posted by: Jaap Pels | Friday, 08 April 2005 at 14:00