Jak nie wybierać kodu PIN?

Justin Wolfers podał na Twitterze odnośnik do rysunku, który pokazuje część dwucyfrowych kombinacji wybieranych w czterocyfrowych kodach PIN.

Dane te pochodzą z blogu Data Genetics i zostały wyłuskane z baz danych skradzionych haseł z różnych stron i serwisów internetowych. Nie są to więc bezpośrednio dane o PIN-ach do kart kredytowych. Zdaniem autora mogą stanowić cenną wskazówkę co do trendów w tworzeniu przez ludzi czterocyfrowych kodów.

Autor analizy uzyskał łącznie 3,4 miliona haseł. Reprezentowana była każda z 10 000 możliwych kombinacji (od 0000 do 9999). Jednak częstość występowania kombinacji wskazuje na wyraźne preferencje w ich doborze.

Zacznijmy od tego, że dwadzieścia najpopularniejszych kombinacji odpowiadało za 26% wszystkich haseł.

Jak łatwo się domyśleć najpopularniejszym hasłem było 1234 (aż 11% wszystkich). Na kolejnych miejscach uplasowały się 1111 (6% wszystkich) i 0000 (2% wszystkich).

Poniższy rysunek pokazuje częstość występowania pierwszej pary cyfr (oś OX) i drugiej pary cyfr (oś OY). Im bardziej żółty piksel tym część występują dane kombinacje. Na rysunku widać kilka interesujących anomalii:

kombinacje PIN

Zauważcie na przykład uwagę na bardzo jasną skośną linię – ilustruje ona preferencje na rzecz powtarzanych kombinacji pierwszych dwóch i ostatnich dwóch cyfr (na przykład 1010, 1515,4040 i tak dalej).

Jasnożółta pionowa linia na wysokości 19 to najprawdopodobniej pierwsze dwie cyfry wszystkich PIN-ów, którymi jest rok urodzenia.

Jasnożółty prostokąt (mniej więcej o wymiarach 10 na 30) to wszystkie kombinacje zaczynające się od miesiąca urodzenia (1 do 12) a kończące się na dniu urodzenia (1 do 31).

Dosyć dobrze widać też preferencje na rzecz okrągłych kombinacji.

Zastanawiam się jaki odsetek PIN-ów zamknąłby się w dwudziestu dwóch kombinacjach obejmujących 20 najpopularniejszych zwykłych kombinacji, rok urodzenia i miesiąc i dzień urodzenia?

Co z tego wszystkiego wynika? Po pierwsze to, że wielu ludzi nie zdobywa się nawet na najmniejszy wysiłek przy wymyślaniu haseł. Po drugie, powyższe dane pokazują, że ludzie nie traktują wszystkich liczb jednakowo. Na blogu Data Colada użyto tego powyższy rysunek w tekście, który wyjaśnia dlaczego ludzie musieli napisać generator liczb losowych.

Ten wpis został opublikowany w kategorii Społeczeństwo i oznaczony tagami , . Dodaj zakładkę do bezpośredniego odnośnika.

6 odpowiedzi na Jak nie wybierać kodu PIN?

  1. Michal pisze:

    Jezeli komputer/inne urzadzenie, do ktorego wpisujemy to haslo, nie przerywa proby po kilku krokach tylko pozwala wyprobowac wszystkie mozliwosci, to wybor hasla sposrod 10000 dostepnych nie ma znaczenia. Brute force je i tak zlamie.

    Jezeli przerywa po kilku probach (zwykle trzech) to tylko wyjatkowo idiotyczne haslo (tj. 1234) jest niebezpieczne. I znacznie lepiej wybrac 'slabe’ haslo (typu data urodzin mojego kota) niz 'mocne’ haslo (ktore nastepnie zapisze sie na karteczce, zeby zapamietac).

    Problem wyboru slabych hasel istnieje i jest powazny, ale akurat PINy nie sa jego najlepszym przykladem.

    • Trystero pisze:

      @ Michał

      Przede wszystkim trzeba ustalić jaka część użytkowników w ogóle zmienia PIN-y do kart a moja intuicja podpowiada mi, że niewielka część.

      Mnie w tej historii najbardziej zainteresowały wzory w danych, które teoretycznie powinny być losowe. Napisałem teoretycznie bo z drugiej strony wiadomo, że te dane powinny oddać preferencje co do zapamiętywania kombinacji 4 cyfr.

  2. Michal pisze:

    1. Myslalem, ze zmienic PIN mozna tylko w karcie czipowej? Co zreszta nie ma wiekszego znaczenia, gdyz:

    2. Artykul w Data Genetics jest o kodach ktore ludzie sami ustalaja (PINy do telefonow? nie pisza) – gdyby byl o kodach ktore ustala jakas instytucja i ktore w wiekszosci nie sa zmieniane przez uzytkownikow to nie byloby tych wlasnosci statystycznych (bo _banki_ chyba nie wpisuja co dziewiatemu klientowi PINu 1234? raczej spodziewalbym sie, ze wybieraja kody z krotszej listy, na ktorej ta akurat kombinacja jest nieobecna).

    3. I tak, ten artykul jest pasjonujacy. Np. kody czterocyfrowe sa jeszcze urozmaicone, podczas gdy 35% kodow 9ciocyfrowych to 123456789. Widac, cztery 'losowe’ cyfry daje sie jeszcze spamietac, dziewieciu juz nie.

    Co ma wazne znaczenie praktyczne: wielu sysadminow zmusza uzytkownikow do tworzenia mocnych hasel, ktorych ludzie nie sa w stanie zapamietac (wiec je zapisuja i wieszaja na widocznym miejscu), skutkiem czego jest znaczace oslabienie (a nie wzmocnienie) poziomu bezpieczenstwa. Bezpieczenstwo jest systemem, w ktorym rozne elementy wchodza w zlozone interakcje…

  3. Virtuozo pisze:

    Odnośnie wykresu sam zwróciłbym jeszcze uwagę na gradację odcienia. Widać, że w pewnym sensie ludzie wolą małe liczby od dużych, co mniej więcej odpowiadałoby intuicji wyniesionej jeszcze z czasów szkoły podstawowej(np. małe liczby można szybciej dodać, czy przemnożyć – to już tylko luźna hipoteza).

    Badanie prowadzi do ogólnego wniosku, że człowiek jest słabym generatorem losowym; ten niebanalny (mimo wszystko) wniosek prowadzi np. do nieco paradoksalnego stwierdzenia, że w grę papier-kamień-nożyce mogą być lepsi gracze i gorsi.

    @Trystero:

    Moim zdaniem Twoje dane spełniają pewne kryteria losowości, choć przybliżony rozkład, z którego pochodzić może ta próbka jest mocno niejednostajny. Zwróćmy jednak uwagę na fakt, że jeśli zawęzisz obszar rozważań np. do wspomnianej przez Ciebie przekątnej, to uzyskasz piękną próbkę pochodzącą z rozkładu jednostajnego (poza pewną anomalią w okolicach małych par – nie wiem, w jaki dokładnie sposób odcień odpowiada częstości występowania danego wyniku, więc nie mam też pojęcia jakiej skali jest ta anomalia). Więc o ile ludzie nie generują 4-cyfrowych liczb stricte losowo, o tyle „szczęśliwe numerki” już znacznie bardziej.

  4. Dominik pisze:

    Nawet krótkie kody czterocyfrowe są trudne do zapamiętania, wliczając w to jeszcze inne hasła, które trzeba pamiętać.
    Poza tym w wykresie można się dopatrzeć kwadratu 30×30, odpowiadającym niższym 1 i 3 cyfrze.

  5. wersy pisze:

    A mnie zastanawia pokrewny temat: jak to się stało, że z kodów PIN zrezygnowano w internecie, zdając się tylko na numer karty i podstawowe dane osobowe. Przecież w tej chwili kradzieży może dokonać każdy, kto tylko obejrzy portfel, (przy dobrej pamięci choćby kasjerka w sklepie) a właściciel konta nawet nie będzie zdawał sobie z tego sprawy…

    Jakie idee stały za tym pomysłem? 4-cyfrowy PIN znany teoretycznie tylko posiadaczowi karty to zabezpieczenie zawodne, ale przecież lepsze, niż żadne.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *