寄付白書を機械学習の教師データとして使ってみる

寄付白書を機械学習の教師データとして使ってみる

皆さんは「寄付白書」というものをご存知でしょうか?私は以前より支援をさせて頂いているのですが、来年の秋頃「寄付白書 2021」が発行されることが決定し、先日はキックオフイベントも開催されました。

寄付白書(2017) [ 日本ファンドレイジング協会 ]

日本ファンドレイジング協会の方のファシリテーションのもと、執筆される先生方から意気込みが語られたのですが、またしても少々違和感を覚えました。3名の先生方は、登壇するなり、「今回もクビにならずに執筆に関わることができてよかったです」、「次回は声をかけてもらえないと思うので、今回で最後になりそうですが」、「今回も担当できるということは、前回の調査が評価されたと思います」といった入り方をされていました。

謙虚すぎて弱々しい

社会貢献領域で活躍される皆さんに総じて感じられるのですが、その道では第一線の方々で、社会課題に立ち向かっておられる尊敬されるべき人たちのはずなのですが、なんだか弱々しく卑屈ささえ漂わせていることが多いような気がします。恐らく、常に競争環境にさらされる営利企業のビジネスパーソンに比べ、利他の心で人を支えるマインドセットである方が多く、その優しさ故に、謙虚がすぎるのではないかと想像しています。

また、NPO法人をはじめとする非営利団体においては、資金繰りに困窮していることが多く、役員が身銭を切り、職員の方々が不眠不休で支援されることもよくあることかと思います。そのような現実も、パッションがあり、生き生きと活躍されているはずの非営利領域の方々に、弱々しさを感じてしまう原因なのかもしれません。

損得勘定のふるさと納税ではなく一度は真心の寄付を

さて、本題の寄付白書についてですが、創刊10周年を迎え来年の秋ごろに「寄付白書2021」を発行する予定とのことです。恐らく資金的な問題だと思われますが、これまで2年ごとの発行でしたが、今回は4年ぶりとなります。これまでに明らかになった、東日本大震災といった大きな災害と寄付の相関のように、コロナ禍における寄付の動向がどのように現れるのかは興味深いところです。

2020年12月24日までクラウドファンディングによる発行資金調達を実施されています。これまで寄付に馴染みが無い方は、まずはその活動を知るだけでも価値があると思いますので、是非、以下のプロジェクトを覗いてみてください。

寄付で支えられ、創刊から10年。『寄付白書2021』を出版へ

https://readyfor.jp/projects/GJ2021

寄付データでAI活用の練習

近年のAIブームで非常にお手軽に機械学習環境を利用できるようになり、これまで色々と試すうちに、興味のある分野の教師データの入手が非常に困難であることに気がつきました。機械学習を学ぶ際に、その理論やアルゴリズムといった仕組みについてはサンプルやチュートリアルを含め様々な情報があるのですが、いざ実際にモデル構築をしようとすると教師データの入手という大きな壁にぶつかります。

大学の研究室などであれば、然るべき手順を踏むことで、大手旅行サイトやECサイトのクチコミ情報などの私たちビジネスパーソンなら興味をそそられる生データを入手し、研究することが可能ですが、当然、個人ではそのような情報にアクセすることはできません。

また、政府が各種統計情報を公開していますが、その殆どは生データではなく、ご丁寧に集計された状態で公開されており、全く役に立ちません。

更に、Kaggleには多くのデータが公開されていますが、COVID-19関連のように公共性の高いデータならまだしも、ビジネスノウハウが得られそうなデータに関しては肝心な項目が伏せられていることが多く、そう簡単に興味が沸いてくるデータには巡り会えません。

例えば、USにおける倒産企業の財務データというものを発見し、これは面白そうだと思って飛びつきましたが、企業名はもちろんダミーなのはわかるのですが、なんと勘定科目名もa,b,c…になっていました。確かにモデルの構築やその優劣の議論にはなんの問題もありませんが、ビジネスパーソンとしては1ミリも価値がないとは思いませんか? 「財務指標のaとcにXXXXな相関がある場合、その企業は95%の確率で3年以内に倒産します。」って、だから、aとcって何なの?ってなりますよね。

VARISTAを試しています

このように意味のある教師データとしての生データは意外と入手が大変なのです。しかし、今回の寄付白書2021の発行イベントをきっかけに、寄付白書2017の名誉発行パートナーには、分析の元となった生データが提供される特典があったことを思い出しました。当時は、すでに白書の中で様々な集計と分析が行われていることから、それほど生データの必要性を感じていませんでしたが、先日、生データを送ってもらう手配をしました。

最近は仕事でVARISTAという機械学習のSaaSを利用してIT技術者の成果物のクオリティを予測するという試みをやっているのですが、個人的にはあまり気分が盛り上がっていません。それより、これから入手する寄付関連のデータをネタとして、なにか面白いモデルを構築する方がファンドレイザーとしてもワクワクしますし、これから設立予定の非営利法人でもデジタルファンドレイジングサービスを企画していますので、まずはVARISTAでデータをいじり倒してみようと思います。