niszetの日記

アナログCMOS系雑用エンジニアが頑張る備忘録系日記

データ分析のためのデータ可視化入門を読んだので感想です。

遅くなりました…

www.kspub.co.jp

@niszetが人生色々とgdgd進行しているため、読み終えるまでに時間かかってしまいましたが、最後まで読み終えたので読後の感想を書こうと思います。 なお、本書は id:u_ribo さんより GitHub Sponsorsのお礼という事で頂きました。ありがとうございました。なんかすみません…。

ちょっと雑多な文章になりますが、ご容赦ください。

感想

読後感としては、本文の文章が思ったより多く(付録をあわせて300ページを超えているので相応の分量ということですが)、基本は通して読むタイプなのでそれなりに腰を据えて読むのが良いと思いました。洋書にありがち?な、脇道に逸れたような話はないので純粋に説明の文章量が多いということでしょうから、悪い意味ではないです。

5章がデータの整形の話で、その前までが比較的基本的な可視化の話、6章がモデルデータ、7章が地図、8章がプロットを整える話なので、後半は人によって重要度が変わってくるかと思いますが、初心者でも4章までは読んでおきたいかな。5章も整形といってもそれほど難しくないし、モデルデータも大事だし、地図は気を付けて図示しないといけないよねってことがよくわかるし、8章もここまで読み通して最後に気を付けないといけない話が載ってるのでやはり読みたい…なので、結局全部読むのがおススメ、ですね…。

初心者であればこそ、じっくり時間を取ってコードを実行して作図しつつ文章とともに睨めっこしていくと良いと思います。あとがきにも書かれていましたが、良い可視化とそれをggplotでやるにはどうするのが良いのか?を一冊で学べるため、時間をかけて読む価値のある一冊であると思います。また、全体として訳は違和感のない文章なので(ややかためだが)読み通せると思います。あとがきにも書かれていましたが、翻訳者間で用語の統一をしている点などが全体の質に反映されているのだろうと思います。

ターゲット読者を考えると、既知の話かとは思いますが、本書は主にR言語ggplot2ライブラリを使用して可視化を行ないます。1章の「データを見る」は言語やパッケージに依らない話なのですが、2章以降はR言語ggplot2べったりの話が続きますので、今後全く使用予定がない人にとっては微妙かな…とは思います。もちろん、考え方のベースになる部分は言語やパッケージに依存しないのですが、やはり手を動かして習得していくのが大事なので(そういう私はコードを実行できていないのですが。申し訳ない。)。

…と思っていたんですが、id:ill-identifiedさんが「Python ユーザでも『データ可視化入門』で練習できるようにパッケージを作った + Plotnine との互換性ガイド」という記事を公開されていました。https://ill-identified.hatenablog.com/entry/2021/08/06/200859 何これすごい。これでPythonユーザでも本書の恩恵を受けられますね!

Rのtidyverseに関係したパッケージ群は比較的更新がはやく行なわれるのですが、本書は翻訳時に最新の関数に置き換えたものになっているのでその点も良いですね。原著から変えている箇所は訳注に記載があります(元の関数が何かの情報も添えて)。

単純にggplotの文法を知りたいという目的なら「Rグラフィックスクックブック 第2版」がある  https://www.oreilly.co.jp/books/9784873118925/ ので、その情報が必要であればそちらを読むと良いでしょう。私は2版は読んでないのですが初版は結構お世話になりました(マニアックすぎるものは当時載ってなかったけど、今はどうなのかしら?)

また、R言語初心者であれば、「改訂2版 Rユーザのための RStudio[実践]入門」https://gihyo.jp/book/2021/978-4-297-12170-9 も読むと良いでしょう。 初版を読みましたが、tidyverseに苦手感がある人にもおすすめです。

講談社サイエンティフィクさんの他の書籍と同様、本書もカラーです。紙質があっているのか発色的にも見やすい気がしますね。ggplotで(に限らないが)、図示する際に色情報は大きな要素なので、これは大事。コードもシンタックスハイライトされています(私的には重要度高くないポイントですが)紙面レイアウトが面白く、原著の脚注が本文横に、訳注が下にあり、図は脚注領域や本文領域など色々なパターンがありますね。

本書は索引とプログラム関連用語索引という二つの索引があります。テクニカルなこと(と私が感じたこと)もあるのですが、それを主題としていないので必要な時にそのページにたどり着けるか…という不安があったのですが、プログラム関連用語索引を眺めているとパッケージ名や関数名から引けるようになっているので、それらを覚えていればそのページにたどり着けると思います。分かれているとこういう点で便利ですね。

Amazonのレビューとかだとよく「コスパ」という文字がありますね。技術書のコスパって何だろうってのは置いておいても、本書は普通にお手軽な価格ですね。というより原著より安くないですかね…

まとめ

長々と書いてしまいましたが、これからggplotで可視化するなら読むべき1冊、ということで是非手に取って読んでみてもらえればということで感想でした。