Опубликован список наиболее популярных слов в исходных кодах — автор проанализировал 2 ТБ данных

Сегодня в топ reddit вышла ветка, создатель которой проанализировал 2 ТБ кода и создал перечень самых популярных слов, которые используются в различных языках программирования.

Результаты исследования доступны на сайте автора. Данные очень красиво оформлены и сопровождены числовыми данными о том, сколько раз в анализируемом коде встречалось то или иное слово:

Для каждого языка формируется “облако” самых популярных слов, которое образует собой логотип языка.

Стоит отметить, что, вероятно, автор поторопился выкладывать результаты. Недочеты содержит как сам сайт, так и метод исследования.

Так, во многих языках ключевое слово else серьёзно опережало if (тогда как, например, в Java нельзя использовать первый без второго, а значит вхождений else должно быть по крайней мере не больше, чем if). После того, как автору указали на это расхождения, в алгоритм были внесены правки, и пока больше странностей замечено не было.

С другой стороны, в браузере Firefox на Arch Linux не работает переключение языков. Если вы столкнётесь с такой проблемой, то языки можно переключать просто меняя параметр “lang” в URL.

Пётр Соковых, транслятор двоичного кода в русский язык