2019-06-20                                         the real world


                          14 Jahre apov

                         Ein paar Zahlen


Ohne besonderen Grund ist mir heute wieder diese Studie eingefal-
len, in der der Sprachumfang in Songtexten untersucht wurde.  [0]
Das  fuer mich relevante und bestaetigende Ergebnis war, dass Bob
Dylan der einzige Nicht-Rapper auf den ersten Plaetzen  war.  Das
ist  die wissenschaftliche Erklaerung eines Aspekts, weswegen ich
seine Musik mag. Aber wie dem auch sei ...

In irgendeiner  anderen  Studie  ist  festgestellt  worden,  dass
``time''  das  haeufigste  Substantiv in seinen Lyrics ist. Daran
habe ich mich eben wieder erinnert ... und dann dachte ich, waere
es  ja  interessant  zu wissen, was fuer Woerter in meinen ``Lyr-
ics'' oben stehen.

So habe ich kurzerhand mal  reingeschaut.  Dafuer  hat  man  doch
schliesslich Unix, weil sowas ein Einzeiler ist:

     cat * | tr -c '[-a-zA-ZäöüÄÖÜß]' \\n | tr A-Z a-z | \
             sort | uniq -c | sort -nr

Insgesamt umfasst apov  derzeit  550  Texte  aus  14  Jahren  mit
insgesamt  rund  250.000  Woertern. Von diesen Woertern sind fol-
gende die Top-20:

        7013 ich
        5996 die
        5465 und
        4432 ist
        4099 der
        4021 das
        3886 es
        3620 nicht
        3217 zu
        2795 in
        2335 man
        2170 ein
        1914 sie
        1783 so
        1764 aber
        1763 dass
        1746 auch
        1641 mich
        1559 mit
        1553 sich

... sehr offensichtlich, was das Hauptthema ist. ;-)

Das erste 5-Zeichen-Wort ist ``nicht'' auf Platz 8. Das erste  6-
Zeichen-Wort ist ``werden'' auf Platz 56. Das erste noch laengere
Wort ist ``vielleicht'' auf Platz 113.

Die fuenf laengsten Woerter sind:

     kommunikationsmoeglichkeiten
     preis-leistungs-verhaeltnis
     standardisierungskomitee
     allgemeinbevoelkerung
     entscheidungsfreiheit

Insgesamt listet mein Befehl 26.000 verschiedene Woerter. Das ist
aber  zu  hoch,  weil  Effekte  auftreten,  wie  dass ``für'' und
``fuer'' separat gelistet  sind,  und  ich  Endformen  (``mein'',
``meine'',  ``meines'', ``meiner'', ...) nicht normalisiere. Auch
sind ein paar Nicht-Woerter  drin,  die  ich  zu  faul  bin  noch
rauszufiltern (Pareto-Prinzip).


Interessant, und der eigentliche Ausloeser dieser  Analyse,  sind
aber  die  Substantive,  die natuerlich erst etwas spaeter in der
Liste kommen.

Das haeufigste Substantiv in meinen Texten ist: ``Zeit'' (416 Mal
und  auf  Platz  92).  Lustig,  denn  bei  Dylan  ist  es ja auch
``time''! Allerdings verwenden wir es vermutlich doch zumeist  in
unterschiedlichen   Sinnzusammenhaengen.  Direkt  dahinter  kommt
``Leben'' (das aber auch ein Verb sein kann und das es sicher oft
auch  ist, was ich hier vernachlaessige).  Dann mit 365 Nennungen
auf Platz 96 ``Buch'', was  an  meinen  Buecherrueckblicken  (den
typischerweise  laengsten Texten, schlichtweg, weil ich sie nicht
auf Papier, sondern direkt am Computer schreibe ... so  wie  auch
diesen Text hier) liegt. Desweiteren ``Welt'' (385/99) und ``Men-
schen'' (302/119).


Genug zu den Worten, jetzt noch zu den Texten.

Ich habe mir vor laengerer Zeit ein kleines  Script  geschrieben,
das mir mein apov-Schreibverhalten ueber die Zeit auswertet:

     printf "%s\t%4s\t%6s\t%6s\n" year num words avg.words
     for i in `seq 2005 \`date +%Y\`` ; do
             printf "%s\t%4d\t%6d\n" \
                             "$i"  `ls $i-*.txt | wc -l`  `cat $i-*.txt | wc -w`
     done | awk '{ printf("%s\t%6d\n", $0, $3/$2); }'

Hier die Ausgabe (ohne den letzten  Text,  den  ich  zum  Auswer-
tezeitpunkt noch nicht online gestellt hattee):

     year     num     words  avg.words
     2005      61     13369     219
     2006      73     15401     210
     2007      42     15113     359
     2008      30     19944     664
     2009      44     16365     371
     2010      47     19662     418
     2011      33     17296     524
     2012      30     15052     501
     2013      28     15999     571
     2014      29     21837     753
     2015      27     21959     813
     2016      34     23309     685
     2017      26     16365     629
     2018      24     16207     675
     2019      20     12258     612

Die Zahlen sind insofern manchmal  etwas  verfaelscht,  weil  die
Buecherrueckblicke  manchmal  im  Dezember  und manchmal im neuen
Jahr liegen. 2013 und 2018 hatten keinen Buecherrueckblick,  2016
dagegen   hatte  zwei.  Das  macht  immerhin  Verschiebungen  von
2000-3500 Woertern aus.

Wenn  ich  spontan  entscheiden  sollte,  dann  ist   2015   mein
Lieblingsjahr,  weil  da  die  meisten  langen Texte dabei waren.
(Und wenn man den zweiten Buecherrueckblick in 2016 abzieht, auch
insgesamt  die meisten Woerter. Aber die Laenge der Texte ist mir
wichtiger als ihre Anzahl, weil Laenge mehr ein Indiz fuer  Tiefe
und damit tendenziell fuer Qualitaet ist.)


In der ganzen Zeit gibt es drei Monate, in  denen  ich  es  nicht
geschafft habe, auch nur einen Text zu schreiben. Mindestens zwei
Texte pro Monat sind mein Ziel,  manchmal  wird's  nur  einer  --
leider -- aber gar keiner ist wirklich selten -- zum Glueck!

Natuerlich ermittle ich sowas auch in der  Shell,  und  zwar  mit
einem Befehl wie diesem:

     for y in `seq 2005 2019`; do
             for m in `seq -f %02.0f 1 12`; do
                     echo $y-$m-*
             done
     done | grep -v txt

Aus der Ergebnisliste habe ich dann noch manuell die  Monate  vor
meinem  ersten und die in der Zukunft entfernt und uebrig bleiben
drei:

     2015-05-*
     2017-06-*
     2018-12-*

Mit keinem von ihnen habe ich ein Problem. Es gab jeweils Gruende
fuer die Auszeiten.


Lieblingstexte habe ich viele, aber jeder Text ist mehr  wie  ein
Kunstwerk:  Jeder  ist  individuell  und fuer sich selbst schoen,
oder besser: Er ist so wie er nun eben ist und nicht anders  sein
kann.


[0]  http://lab.musixmatch.com/largest_vocabulary/


http://marmaro.de/apov/       markus schnalke <meillo@marmaro.de>