Justin Wolfers podał na Twitterze odnośnik do rysunku, który pokazuje część dwucyfrowych kombinacji wybieranych w czterocyfrowych kodach PIN.

Dane te pochodzą z blogu Data Genetics i zostały wyłuskane z baz danych skradzionych haseł z różnych stron i serwisów internetowych. Nie są to więc bezpośrednio dane o PIN-ach do kart kredytowych. Zdaniem autora mogą stanowić cenną wskazówkę co do trendów w tworzeniu przez ludzi czterocyfrowych kodów.

Autor analizy uzyskał łącznie 3,4 miliona haseł. Reprezentowana była każda z 10 000 możliwych kombinacji (od 0000 do 9999). Jednak częstość występowania kombinacji wskazuje na wyraźne preferencje w ich doborze.

Zacznijmy od tego, że dwadzieścia najpopularniejszych kombinacji odpowiadało za 26% wszystkich haseł.

Jak łatwo się domyśleć najpopularniejszym hasłem było 1234 (aż 11% wszystkich). Na kolejnych miejscach uplasowały się 1111 (6% wszystkich) i 0000 (2% wszystkich).

Poniższy rysunek pokazuje częstość występowania pierwszej pary cyfr (oś OX) i drugiej pary cyfr (oś OY). Im bardziej żółty piksel tym część występują dane kombinacje. Na rysunku widać kilka interesujących anomalii:

kombinacje PIN

Zauważcie na przykład uwagę na bardzo jasną skośną linię – ilustruje ona preferencje na rzecz powtarzanych kombinacji pierwszych dwóch i ostatnich dwóch cyfr (na przykład 1010, 1515,4040 i tak dalej).

Jasnożółta pionowa linia na wysokości 19 to najprawdopodobniej pierwsze dwie cyfry wszystkich PIN-ów, którymi jest rok urodzenia.

Jasnożółty prostokąt (mniej więcej o wymiarach 10 na 30) to wszystkie kombinacje zaczynające się od miesiąca urodzenia (1 do 12) a kończące się na dniu urodzenia (1 do 31).

Dosyć dobrze widać też preferencje na rzecz okrągłych kombinacji.

Zastanawiam się jaki odsetek PIN-ów zamknąłby się w dwudziestu dwóch kombinacjach obejmujących 20 najpopularniejszych zwykłych kombinacji, rok urodzenia i miesiąc i dzień urodzenia?

Co z tego wszystkiego wynika? Po pierwsze to, że wielu ludzi nie zdobywa się nawet na najmniejszy wysiłek przy wymyślaniu haseł. Po drugie, powyższe dane pokazują, że ludzie nie traktują wszystkich liczb jednakowo. Na blogu Data Colada użyto tego powyższy rysunek w tekście, który wyjaśnia dlaczego ludzie musieli napisać generator liczb losowych.