Spämmifiltterin suunnittelua
April 26th, 2024
En tiedä, mitä olen tehnyt väärin, mutta Facebook-feedini on viime aikoina ollut aivan täynnä bottien kaapatuilta tai valetileiltä postittamaa roskaa. Ensin tuli sadoittain Jennifer Anistonia ja Sandra Bullockia, sitten feikki-intiaania ja nyt viime aikoina aivan loputtomasti lammikossa jäkittäviä, tekoälyn luomia lapsi- ja koiraparkoja sekä hurskaita, kuulemma kauniita lentoemäntiä. Seassa silloin tällöin jotain oikeaakin sisältöä, mutta tuskaisen vähän. Suuri virheeni on varmaan ollut skeidan raportointi, jonka algoritmi on tulkinnut mielenkiinnoksi aihetta kohtaan.
En ole ihan tarkalleen edes perillä siitä, mitä näillä kaikilla feikeillä haetaan. Veikkaisin, että pornon mainostusta, tilien kaappaamista, hyväuskoisten rahojen kuppaamista ja muuta sellaista pyyteetöntä. Internetissä eläneelle spämmi ja khalastelu ovat tuttu ja arkipäiväinen juttu, mutta mitä en ymmärrä on Facebookin täysi toimettomuus ongelman suhteen. Itse olen pariinkin kertaan joutunut jäähylle ihan normaaleista postauksista, mutta spämmin raportoiminen ei tunnu johtavan yhtään mihinkään. Jos vaivautuisivat filtteröimään edes kaiken roskan, jossa on sanat “beautiful cabin crew” ja #scarlettjohansson, niin kökön määrä putoaisi murto-osaan. Näin ei kuitenkaan tapahdu, joten ainoa selitys on, että Fese haluaa tuota jöötiä palveluunsa. Dollarit on epäilemättä laskettu.
Koodarina rupesin miettimään käytännöllistä algoritmia, joka nappaisi automaattisesti suurimman osan roskasisällöstä. Optimoitavia ominaisuuksia ovat ainakin toteutuksen helppous, laskennallinen keveys, pieni muistinkäyttö, osumatarkkuus ja skaalautuvuus, sillä onhan käsiteltävä datamäärä valtava. Hetken pähkäilyn jälkeen välähti ja keksin lupaavan ratkaisun, jonka eri vaiheet näyttävät tältä:
- Merkitse kaikki uudet postaukset spämmiksi ja poista ne
Osumatarkkuus tulee olemaan helposti ainakin 99 %, mitä parempaan tuskin pystyvät sen enempää neuroverkot kuin tilastolliset menetelmätkään. Pienenä puutteena hivenen oikeaakin sisältöä saattaa mennä mukana, mutta se vaarahan on joka tapauksessa olemassa. Toteutus on lisäksi erittäin helppo, vaaditun laskentatehon sekä muistinkulutuksen suhteen kevyt ja – mikä parasta – skaalautuu täysin lineaarisesti annetun syötteen mukana O(n). Keksikääpä itse parempi!
Filed under: sekalaista,softat
Kommentin kirjoitus
You must be logged in to post a comment.
RSS feed for comments on this post.