Waarom automatische lijstjes/websites niet altijd goed zijn!
Op internet zijn er diverse initiatieven te vinden die informatie van Twitter (of specifieke Twitteraars) via hun website publiceren. Een van de voorbeelden is NULive waar je door middel van een weergave van Tweets zou moeten kunnen zien wat er nu leeft in Nederland. Allemaal goede en leuke initiatieven waar we ook bij de NOS aan meedoen door bijvoorbeeld Twitterende politici te volgen.
#Fail, de digitale schandpaal
Op zich is er wat mij betreft niks met dit soort websites en manieren van het weergeven van informatie. Ik vind het echter wel kwalijker worden als er aan bepaalde Tweets kwalificaties worden gehangen. Een voorbeeld van zo’n website is Uitgekotst.nl. Op deze website worden automatisch alle Tweets die worden voorzien van de hashtag #fail getoond als er een bepaalde bedrijfsnaam in voorkomt. Een soort van digitale schandpaal dus.
Goed voorbeeld (soms werkt het wel)
Er zijn voorbeelden van bedrijven te vinden waarbij de website Uitgekotst.nl een werkelijk beeld geeft van de mening van mensen over een bepaald bedrijf. Een goed voorbeeld is T-Mobile waarover in diverse media al heel veel klachten zijn verschenen, hetgeen ze ook zelf hebben toegegeven. In dit geval geeft de website Uitgekotst.nl een beeld van de werkelijke problemen met T-Mobile.
Slecht voorbeeld (soms werk het niet/heel slecht)
Zoals de meeste lezers zullen weten werk ik bij de NOS. Ik was dan ook benieuwd wat er op de website Uitgekotst.nl over de NOS geschreven staat. Ten eerste omdat ik het concept van de digitale schandpaal grappig vind maar ook om te zien of we er iets van kunnen leren, klachten zijn immers kansen om een probleem op te lossen. Op de website Uitgekotst.nl wordt gesteld dat de NOS (op het moment van schrijven) 53x wordt uitgekotst. Als ik echter op de pagina kijk (zie screenshot) dan zijn een groot deel van deze Tweets helemaal niet aan de NOS toe te schrijven maar aan BP.

De NOS is dus volgens Uitgekotst.nl minimaal 53 keer uitgekotst terwijl het werkelijke aantal een heel stuk lager ligt.
Conclusie
Wat mij betreft mag eenieder doen wat hij/zij wil op internet, een digitale schandpaal is (binnen de perken en voorzien van goede argumenten) prima. Alleen denk ik dat je erg moet uitkijken met het koppelen van kwalificaties (zoals “uitgekotst”) aan dit soort opsommingen van berichten. Ik zou zeggen, eerst controleren dan pas kwalificeren.
Update: Verantwoording
Als je uitspraken doet zoals ik die doe moet je het natuurlijk onderbouwen met cijfers zoals @Reinier ook vroeg op Twitter. Ik heb dan ook een (tekst) bestandje gemaakt met de Tweets zoals die door de website Uitgekotst worden gebruikt in de #fail lijst van de NOS. Je kunt deze lijst hier downloaden. Er zitten in totaal 56 Tweets in dit bestand, één van de Tweets is duidelijk in het Spaans (of een andere niet Nederlandse taal). Dit heb ik niet meegeteld, in totaal zijn van de 56 Tweets er 34 goed gemarkeerd (61%) de overige 21 (38%) Tweets zijn duidelijk niet goed gemarkeerd. Zie ook de voorbeelden in de bovenstaande afbeelding.

Sentiment Analysis (/opinion mining) is typisch zo’n gebied waar het minefield (hihi) dat natuurlijke taal heet een enorm probleem is. De semantiek in taal is afhankelijk van dermate ingewikkelde constructen (ironie, dubbele ontkenningen, onderwerp-duiding) dat machines dat helemaal nog niet kunnen.