Klicka på bilden.
Techmeme är en amerikansk nyhetsaggregator som jag själv kollar rätt ofta. Sajten är typisk för många såna här nyhetssajter, den är helautomatiserad och använder algoritmer för att plocka ut vad som är nytt och häftigt från webben.
Inte bara det, man länkar också relaterade artiklar till varandra och det är där som problemen börjar. När man länkar så är man inne på semantik. Ett enkelt exempel på semantik är “Erik och Sanna leker”, de är högljudda”. Ordet “de” länkar tillbaks till Erik och Sanna och vi kan ställa frågan “vilka är det som är högljudda” och få svaret “Erik och Sanna.”
Medan dataprogram håller på att bli relativt bra på syntax, kolla bara Googles översättningsprogram och ett vanligt stavningsprogram som Microsoft Word, även om de har långt kvar, så är de ännu så länge hopplösa på semantik. Som Techmemes grundare nu har insett.
När Techmemes kändis-sajt för ett tag sedan skrev om Anna Nicole Smith så skrev man både att hon hade dött och att hon hade lagts in på sjukhus. Algoritmen som valde ut nyheterna visste inte att det handlade om samma person.
Nu har TechMemes grundare Gabe Rivera insett att hans algoritmer inte klarar av semantiken och han skriver så här om det historiska misslyckandet:
TechMeme Gives Up On Fully Automated News
Instantly obsolete news isn’t the only hazard. A fundamental component to any news organization program is the determination of whether two stories are related. Deciding is often rather easy: if two stories hyperlink each other or both use the words Apple, Psystar, and DMCA repeatedly, they’re probably related. Unfortunately, the clues are sometimes far too subtle for the most advanced algorithms to notice.
This leads to bad “related” grouping, and even the failure to surface breaking news in the first place. Even giant, technically-accomplished corporations have had trouble breaking news using algorithms.
Det här är viktigare än man skulle tro för webben i sin nuvarande form klarar inte av semantik.
Det finns något som heter Den semantiska webben men det är långt kvar tills den kommer att bli en realitet.
Under tiden har vi alltså ett historiskt exempel på att vi ännu inte kan bygga en maskin som kan hantera semantik. Vilket är tur för oss människor.
Mikroblogga här. Vad gör du just nu? Läs fler inlägg om Webben
[tags] Silicon Valley, IT, Datorer, Datavetenskap, Den Semantiska webben, Web 2.0, Semantic Web, Techmeme, Aggregatorer [/tags]