Zadanie 1
Zakładamy że pierwsze 1000 pozycji słownika ma równe prawdopodobieństwa
pojawienia się w tekscie i że odpowiadają one za 90% tekstu.
Tzn. każda z nich pojawia się z prawdopodobieństwem 9*10^(-4).
Pozostałe 100000 pozycji słownika daje resztę tekstu i
też ma równe prawdopodobieństwa (równe 10^(-6)).
Przyjmujemy że słowa tekstu są wybierane ze słownika losowo i niezależnie.
Oszacuj:
- Ile różnych pozycji słownika pojawi się w tekście długości 20000 słów.
- Jak długi tekst potrzeba by połowa pozycji słownika pojawiła się
co najmniej trzy razy
- Dodatkowo zakładamy że 1 na 100 słów w tekscie jest błędnie
napisane. Ile różnych błędnych słów można oczekiwać w tekście
długości 20000 słów. Jaki to procent w stosunku do poprawnych
pozycji słownika.
Zadanie 2
Wypróbuj przykładowe programy 'nslo1' i 'hist'. Porównaj
częstości słów w przykładowym tekście z prawem Zipfa.