За допомогою Google Books проаналізують культуру за кілька століть

14 сiчня 12:28

Дослідники з Гарвардського університету і компанія Google реалізують незвичайний науковий проект, завдання якого полягає у "вивченні культури у кількісному вираженні". Використовуючи бібліотеку з мільйонів відсканованих компанією Google книг, автори проекту намагаються відстежити особливості використання мови та різних суспільно-важливих тенденцій протягом сотень років.

 

Дослідники з Гарвардського університету і компанія Google реалізують незвичайний науковий проект, завдання якого полягає у "вивченні культури у кількісному вираженні". Використовуючи бібліотеку з мільйонів відсканованих компанією Google книг, автори проекту намагаються відстежити особливості використання мови та різних суспільно-важливих тенденцій протягом сотень років. У бібліотеці відсканованих книг Google присутні книги з 1500 до 2008 року видавництва. Всього тут значиться близько 5 мільйонів книг або 4% від загальної кількості виданих книг у світі. Основна маса відсканованих книг написана англійською, китайською, німецькою, французькою, іспанською та російською мовами. Згідно з даними компанії, загалом у всіх відсканованих книгах міститься більше 500 млрд слів. У Google відзначають, що новий сервіс, який отримав назву Books Ngram Viewer дозволяє представити у новій формі кількісні показники у різних областях академічних знань, відстежити історичні тренди, нові ідеї, тощо за рахунок відстеження популярності тих чи інших ключових слів або фраз у текстах книг. У Google називають подібну метрику унікальною. Інтернет-гігант відзначає, що зараз компанія перебуває в процесі оцифрування ще приблизно 10 мільйонів книг, але ця робота ще не завершена і мета-дані щодо книг не оновлені. Дослідники говорять, що різні книги у бібліотеці Google оцифровані з різною якістю, тому для найбільш повноцінного аналізу робота йде тільки з якісними матеріалами. У Гарварді говорять, що ними вже була оброблена колекція книг, яка, якщо б читалася однією людиною, зайняла б у неї 80 років (при тому, що людина б не відволікалася на їжу, сон та інші потреби). Автори проекту провели кілька простих аналізів, що визначають частоту конкретних слів в загальному обсязі книжкових слів, надрукованих у книгах за той чи інший рік. Дані досліджень показують, що у 1900 році надруковані були близько 1,4 мільярда слів, а ось через століття цей показник склав уже 8 мільярдів слів. З цього обсягу слів дослідники склали так звані н-грами або короткі фрази із п'яти слів. Дослідники говорять, що це досить просте завдання, але воно достатнє, аби виявити деякі основні літературні тенденції. Наприклад, у США під час громадянської війни (1861-1865рр) відзначений сплеск слова "рабство" і словоформ, пов'язаних із ним. У книгах трохи пізнішого періоду досить часто згадується словосполучення "рух за громадянські права". Ще одним цікавим моментом дослідження стало виявлення нових слів і виразів, які називаються неологізмами. Всього із 1950 по 2000 роки у восьми досліджуваних мовах дослідники нарахували близько мільярда різних слів, причому щороку з'являлося приблизно по 8500 нових слів. При цьому наголошується, що у словниках неологізмів міститься в кращому випадку третина нових слів. Є в книгах і слова, що вимирають, які вже незвичні для слуху сучасних жителів, але були нормою ще для попереднього покоління. Дослідники використовували дані мережевих енциклопедій Вікіпедія та Британіка для відстеження "траєкторій знаменитостей". На підставі проведеного аналізу автори проекту кажуть, що у порівнянні з 1800-м роком наші знаменитості помолодшали, у той же час період їхньої "зірковості" скоротився приблизно вдвічі. Актори стають досить відомими вже до 30 років, проти 50 років раніше. У той же час, політики та автори книг стають зараз відомими у старшому віці, ніж раніше. Знизився інтерес і до таких людей, як вчені з галузі фізики, хімії, біології та математики. "На жаль, доводиться стверджувати, що наука це поганий шлях до слави", - говорять автори дослідження. Підрозділ Google Labs створив веб-інтерфейс, щоб всі бажаючі могли простежити тенденції, які цікавлять їх. Він доступний за адресою //ngrams.googlelabs.com/ У компанії говорять, що деякі запити дають логічні, але несподівані результати. Наприклад, через множинне значення слова "панк" воно стало більш популярним, ніж "рок-н-рол", хоча перше є піджанром останнього.

За матеріалами CyberSecurity.ru