2018年4月20日金曜日

【AWS Lambda】課金体系解説【無料枠】

株式会社ジェニシス 技術開発事業部の遠藤 太志郎(Tacy)です。

最近、AWSをフル活用して社内システムを作ったので、そのノウハウのご紹介を行っています。

今回はAWS Lambdaの料金解説です。

手始め

クラウド環境を使う人が真っ先に気にするのは、やはり料金ではないでしょうか?

クラウド環境が活用される理由の第一はやっぱりコストで、コストパフォーマンス良くランニングしたい人の為のサービスですから。

しかしながら、クラウド環境のコストは千差万別。
普通のレンタルサーバの場合は月々いくらの定額制が多いですが、クラウド環境は従量課金制であることが多く、「従量課金ってのは、具体的にどういう計算になるの?」という所が非常に難しいです。

特にAWSは数あるクラウド環境の中でも課金体系が複雑な方だと言われており、これはAWSの欠点の一つだと言えるでしょう。

ともかく今回はLambda部分の課金についてご説明です。

GB-秒課金

こちらがLambdaの料金の公式ページです。


そこにはこう書かれています。

Lambda では 1 か月に 1,000,000 件の無料リクエストおよび 400,000 GB-秒のコンピューティング時間が無料利用枠となっています。

400,000 GB-秒のコンピューティング時間って何ぞや???

普段は余り耳にしない独特の単語が出てきました。

  • GB-秒
  • コンピューティング時間

これを分かり易い言葉に置き換えると、こういうことなんです。

  • インスタンスのメモリ×実行時間

つまり「AWS内のメモリを累計でどれだけ消費したか?」で課金されるという意味になります。
以下の青色の面積が課金対象です。


インスタンスのメモリ

「インスタンスのメモリって何のこっちゃ?」という方もいらっしゃるかもしれないので、Lambdaの画面の一部を切り抜いてお見せしましょう。

以下のように、Lambdaコンソールの「基本設定」蘭にメモリを指定する項目があります。これがインスタンスの設定メモリです。




一番小さい設定で128MB、一番大きい設定で3008MBになります。
(何故3008MBなどという中途半端な値なのかは不明)

課金基準は「インスタンスのメモリ×実行時間」なので、このメモリのサイズに正比例して料金が上がっていくことになりますね。

ここでお分かりになると思いますが、Lambdaはメモリが小さいほど正義なインフラという意味になります。

通常のサーバの場合、「メモリが8GBなら8GBをフルに使わないと勿体ない」という発想で、積んであるメモリをキッチリ使い切ることが芸術です。

そこがLambdaは全然違って、メモリの正比例でお金がかかっていきますから、可能か限りメモリを少なく済ませることが財布に直結するという、プログラマーの腕の見せ所なインフラなのです。

従って、採用する言語もメモリを余り使わない言語の方が優れているということになり、メモリを大量消費する言語であるJavaはLambdaとの相性が最悪です。

私のエンジニアとしての経歴はJavaを起点にしていますが、来るべきクラウド時代を考えるとJavaのみしか使えないエンジニアは活躍の場所が限られると考えています。

「Javaエンジニアは、主力言語はJavaのままでも良いが、補助としてもう一つ言語を覚えるべき」

という私の持論はここに起因しているわけです。

インスタンスの実行時間

インスタンスの実行時間はそのまま、処理が開始されてから終了されるまでの時間です。

  • 1秒で処理が完了したら、1秒を課金。
  • 3秒で処理が完了したら、3秒を課金。

プログラムの速さが料金に直結してくるという、やはりプログラマーの腕の見せ所なインフラなのです。

課金は秒単位で行われます。
どういう意味かと言いますと、昔は

  • 課金は時間課金。
  • インスタンスを30分使っても課金は1時間。
  • 1秒使っても1時間分の金を払いやがれ!!

というカツアゲみたいな課金体系でしたが、クラウド黎明期はこれでも凄いことだと言われていたそうです。
今は1秒単位なので、随分効率が良くなりましたね。

しかし、プログラマーとしては結構キツいなぁ。

「この処理、今は3秒かかっているけど、工夫すれば2秒になるんじゃない?」

とか言われちゃうってことでしょ?
キッツ~。

あと、当たり前ですが、アクセスが殺到してインスタンスが複数立ち上がったら、その正比例でコンピューティング時間に追加されていきます。

無料範囲

こう考えると「400,000 GB-秒のコンピューティング時間が無料利用枠」という意味も分かってきますね。

メモリが128MBの場合、

  • 400,000(GB・秒) ÷ 128(MB) = 3,125,000(秒) = 868時間 = 36 日

という計算になりますね。
だから、立ち上がるインスタンスが1コならずっとタダで使えるってことになります。

しかし、処理の都合でメモリは最低でも1280MBは欲しいとなってくると、この場合だと3.6日ということになります。

短いような気もしますが、ここで忘れてはいけないのは、あくまで「処理時間」ということです。
アクセスが来ていない時間帯は処理していませんので料金は発生しません。
Lambdaは、

  • アクセスが来ていない時は寝ている。
  • アクセスが来たら起きて処理して終わったらまた寝る。

という挙動ですからね。

サービスとしては24時間立ち上がっていても、サーバとして処理している時間が短いシステムであれば、3.6日というのはまあまあの無料枠を貰えていると考えて良いのではないでしょうか?

なかなかお得なインフラです。

手始め

引き続きLambdaの連載を継続します。

2018年4月11日水曜日

【AWS Lambda】帳票出力API開発 その2~RDBMSを使うな~

株式会社ジェニシス 技術開発事業部の遠藤 太志郎(Tacy)です。

最近、AWSをフル活用して社内システムを作ったので、そのノウハウのご紹介を行っています。


前回に引き続き、AWS Lambdaのご紹介です。

特徴3:RDBMSを使うな

特徴3は重大です。

  • RDBMSを使ってはならぬ。

とだけ言うと語弊があるので、ここは詳しく説明していきましょう。

RDBMSとは

RDBMSが何かということは、各自でwikipediaでも見て貰えば十分かと。
リレーショナルデータベースマネジメントシステム、つまり普通のDBです。

  • Oracle
  • MySQL
  • PostgreSQL

これを使うな、とは過激な話です。

「DBを使えないシステムなんて実質役に立たないだろ!!」

と思う人も多いはず。
これには理由があるんです。

それは「コネクション」です。

コネクションの概念

通常のWebシステムの場合、まずWebシステムのインスタンスが起動し、そこからRDBMSに対してコネクションを張ります。

この時、「SQLを発行する都度、コネクションを張る」という挙動をするシステムは基本無いです。
(大昔のへっぽこシステムなら分かりませんが)

  • Webシステム起動時に一定数のコネクションを確保し、それを使い回す。

これが基本……と言うか、これ以外選択肢は無いと思います。

コネクションをいくつ取るかはアプリ側に任されていて、RDBMSは上限数までは要求されるだけ張るようになっています。



上の図はコネクション数5をイメージしています。

これはつまり、同時にSQLを実行できるのは5つまで。
6つ以上のSQLが発生した場合、5つに収まらない分は待ちになります。

よくある障害発生のパターンとして、SQLがコネクションを使ってそのまま開放しないというものがあります。
これをやられるとシステム全体のSQLが止まってしまうので、インスタンスの緊急再起動をさせることでコネクションを切って張りなおすことで回復させるのが常套手段です。
(DBまで再起動する羽目になったら目も当てられませんが)

上の図はインスタンスが一台のイメージでした。
では、ロードバランサーとかを使って、APサーバが2台ある構成のイメージを見てみましょう。


はい。
説明するまでも無いと思いますが、コネクションが2倍に増えました。

  • インスタンス毎にコネクションを確保する。

それがシステムの基本です。
ここにLambdaの罠があります。

Lambdaの特徴

Lambdaは以下が特徴のサービスです。

  • 処理が無い時はインスタンスが寝る。
  • 処理が増えた時はインスタンスが増える。
  • 処理が激増した時はインスタンスがガンガン増える。

そろそろお分かりになってきたでしょうか。

Lambdaはインスタンスの動的増減に価値を持っているサービスです。

しかし、インスタンス毎にコネクションを張るという物理的な制約は変わらない。
つまり、コネクション数が無限に増えるという仕様なのです。


この有様です。
イナゴとしか言いようがありません。

  • LambdaとRDBMSは相性が悪い。

これは覚えておかなければなりません。必須知識です。

使って良い場合

でも、カラクリが分かれば使えるシチュエーションもあることも分かるでしょう。

「インスタンスが無限に増えた時にRDBMSがボトルネックになる」が問題の核心部分ですから、インスタンスの数が制御されていれば問題にはなりません。

  • Webリクエストをトリガーとしてインスタンスを起動する場合はインスタンスがどれだけ増えるか分からないから絶対に使ってはいけない。
  • 定期バッチのように、インスタンス数がコントロールされている場合は使える。

これは大変重要な部分です。
覚えておいてください。

本システムの場合

本システムでは、Lambdaは帳票出力APIとして使用しています。
帳票出力に必要な情報は外部から全部JSONで貰うという仕様にしました。
DBにはアクセスしていません。

これが解決策なのです。


  • 必要な全データをリクエストから取得し、そのままDBを使用すること無く処理が完了する機能には最強!!


帳票出力APIにLambdaをチョイスしたのは我ながら名案です。

オマケ:それでもDBを使いたい

そんな制約がありながらも、それでもLambdaの拡張性や効率は魅力的です。

  • アクセスが少ないシステムの場合は、インスタンスが寝ているからタダで使える。
  • アクセスが増えても自動拡張してくれる。

この安定性とコストパフォーマンスは捨て難いです。
そんな人はNoSQLに活路を見出してみましょう。


AmazonのNoSQLであるDynamoDBは、GoogleのBigTableと並んで世界一有名なNoSQLです。

っていうか、LambdaもDynamoDBもGoogleのパクリとしか思え……ゲホゲホ

DynamoDBはクラウド型DBを名乗るだけあって、Lambdaのインスタンス激増から来るアクセス急増にも耐えられるように設計されています。

耐久性の秘密は分散にあります。
だから「保存したデータが別の場所からは見えない(伝搬してないから)」という現象が起きたりとか、RDBMSとはまるで別物。

分散を実現する為に「リレーション」というものが無く、従ってテーブル間結合も出来ないとか、DBをRDBMSからDynamoDBに差し替えれば使えるみたいな単純な話ではないところが厄介ですが、ちゃんと勉強して使いどころを見極めれば非常に心強い味方になってくれるでしょう。

終わりに

引き続きLambdaの話を続けます。

2018年4月2日月曜日

【AWS Lambda】帳票出力API開発 その1

株式会社ジェニシス 技術開発事業部の遠藤 太志郎(Tacy)です。



上記に記載したとおり、最近覚えたPythonをメインに使用して社内用のWebシステムを作ってみました。
システム構成はこんな感じです。




複数のアーキテクトから構成されるシステムですので、このブログでは分解して連載して行きたいと思います。

最初はAWS Lambdaで稼働する帳票出力APIです。

AWS Lambda

AWS Lambdaは、Lambdaが提供するコード実行環境です。
公式サイトはこちら。


公式サイトにはこのように書かれていますね。

AWS Lambda はサーバーをプロビジョニングしたり管理しなくてもコードを実行できるコンピューティングサービスです。AWS Lambda は必要に応じてコードを実行し、1 日あたり数個のリクエストから 1 秒あたり数千のリクエストまで自動的にスケーリングします。使用したコンピューティング時間に対してのみお支払いいただきます- コードが実行中でなければ料金はかかりません。AWS Lambda によって、実質どのようなタイプのアプリケーションやバックエンドサービスでも、管理なしでコードを実行できます。

でもこれ、初めてLambdaに触れる人には何言ってるのかチンプンカンプンだと思います。
そこでまずはLambdaの導入編として、その使い方や長所、短所といった解説から行ってみましょう。

特徴1:サーバレス環境である

サーバレス環境、サーバレスアーキテクチャ……。
最近のクラウド界で流行のキーワードです。

サーバレスとは直訳すれば「サーバが無い」という意味になりますが、実際のところ、サーバはあります。

あくまで我々利用者がサーバの細かい設定を意識しなくて良い、利用者目線でサーバが無いかのように見える、という概念的な話です。

概念的な話なのでぼんやりとしてしまいがちですが、この画面を見るとピンと来ると思います。




これはLambdaの管理画面で、ソースをアップロードする項目です。

画面からお察しのとおり、Zipで圧縮したソースをアップロードするだけで実行可能な状態になります。

ソースをサーバのどこどこに配置して、そこにパスを通し、Webリクエストを受ける為にapacheやロードバランサの設定も……とか、そういうのは不要です。

Zipファイルをドンと載せるだけで実行可能。サーバ構築不要。
それが「サーバレス」という言葉の意味です。

ちなみにですが、前述のとおり、我々がサーバを意識しないだけで、実際にはサーバはあるんです。
大企業などでは「インフラ担当」「リリース担当」「開発担当」が完全に分かれている場合、開発担当は作ったソースをリリース担当に渡せばそのうちリリースしておいて貰えるという体制が構築されていることがありますが、
この場合、開発担当の視点ではサーバレスということになります。

従来は「インフラ担当」「リリース担当」がやってくれていた作業を自動でやってくれる。
それがLambdaです。

今まで出来なかったことが可能になるわけではありませんが、今までやっていたことが楽に出来るようになります。

一方、人を介在させず全自動でやるために「制約」も色々ありますが、それは徐々に勉強していきましょう。

特徴2:コンピューティング時間課金

特徴その2は、コンピューティング時間課金であること。

普通のレンタルサーバを借りる場合、月3000円でサーバ1台をレンタル、とかそういう課金方式です。

Lambdaはソースが動いた時間で課金されるので、ソース実行時間が1秒だったら1秒だけ課金されるという方式です。

「じゃあ、1日1度、夜間に3秒で終わるファイルクリーンアップバッチを実行したい場合、1日3秒。月90秒の時間だけお金払えば良いってこと?」

と問われれば、そのとおりです。
そういうところで長所を発揮するサービスです。

軽微な処理の為にサーバを1台占拠したり、既に動いているサーバの隅っこにこっそり置かせて貰ったりとか、そういうのは必要ありません。

軽微な処理だけの為の独立した環境が手に入るという、疎結合という観点でも優れたシステム設計を実現出来ます。

しかし、それ故の欠点もあります。

何故「処理が動いた時間だけ課金」という事が可能なのかというと、それは動いていない時間帯は裏側にあるインスタンス(=サーバ)が寝ているからなのです。

ずっと起きっぱなしだったらAWS側のリソースを食ってしまいますので、無課金というわけにはいきません。
使っていない時間帯は寝ているからリソースを食わない。従って、寝ている間はタダでOK。
そういうカラクリなのです。

だから、寝ぼけた状態から起きる為のコスト、「スタートアップ時間」が発生します。

これが決定的に向かないのがJavaです。
Javaは初期起動でJavaVMを展開するコストが重く、その後もクラスロードが重いと、とにかく最初が重い言語です。

最初が重い言語であるにも関わらず、Lambdaでは起きる度にスタートアップを要求される。
致命的に相反する性質です。

でも実は、今回開発した帳票出力APIはJavaで作ってしまいました。
何故Javaなのか?
それはJavaのライブラリを使わなきゃ実現出来なかったからです。(泣)

事情は後の連載で明らかになりますが、私は好きでLambdaにJavaを展開したわけじゃないってことはご理解下さい。

ちなみに、元々はJavaエンジニアである私が最近Pythonに手を伸ばした理由の一つとして、コレがあります。


  • スタートアップが遅いJavaでは、これからのクラウド時代に適合し切れない


と、私は考えています。

Java自体は良い言語で、今後もずーっと使われていく絶対的安全牌の言語だと思います。
しかし、Javaしか出来ないってエンジニアはヤバい。
Javaの欠点を補える性質を持った言語を身につけておかないと、使い回しの効かないエンジニアが出来上がる危険性があると思います。

そういうわけで、今までJavaだけやってきたエンジニアは、これからの時代の変化に対応する為にPythonを勉強していくことがオススメです。

続く

Lambdaで紹介することはまだまだあります。
次回に続きます。

2018年3月26日月曜日

code-prettifyで技術ブログの可読性アップ

株式会社ジェニシス 技術開発事業部の遠藤 太志郎(Tacy)です。

今回はちょっと臨時番外編をお送ります。

サイトが見辛い

最近はQiitaという技術交流SNSが注目を集めていますよね。
私も技術調査を行っている時にQiitaに掲載されている記事にお世話になることが多いです。

それを見ていて思うのが、何かこのブログって掲載しているブログが見辛いなぁ。。。




このブログを始めた2013年当時、私はGoogleが提供してくれているコード掲載用ライブラリである「code-prettify」を導入したのですが、
今となっては明らかにQiitaとか他の技術ブログより見辛いぞ。

一体どうなってんの???

と言うことで、現状に甘んずることなく、ブログの品質向上を目指して見直しを行うことにしました。

何か良いライブラリ無いかな。。。

code-prettifyだった

そして調査して分かりましたが、私のやりたいことは「code-prettify」で出来るんですね。

code-prettify自身が2013年当時から進化していて、最新版を持って来れば良いんですよ。

2013年の頃はGoogle本家に置いてあったと記憶しているcode-prettifyも、今はGitHubに引っ越ししているようです。


今まで使っているcode-prettifyを消して、新しいのを入れなおしてみましょう。

run_prettify

run_prettifyはAjaxライブラリの一種なので、HTMLのヘッダーで宣言が必要です。

以下のようにCDN(コンテンツデリバリネットワーク)の以下を宣言して下さい。

<script src="https://cdn.rawgit.com/google/code-prettify/master/loader/run_prettify.js"></script>


CDN……。
要するに、Googleの親サイトに直接繋いでJSファイルを読み込むわけです。

便利である一方、Googleのサイトが落ちたり、無くなっちゃったりすると死んでしまうわけですが、run_prettifyはCDNを使った方が良いと思います。

容易な変更が許されない業務システムで使うライブラリであれば、そのシステムをリリースした時のバージョンを維持する為にJSファイルをローカルにダウンロードしてシステム内部で保持する必要があります。
でも、このブログって業務システムではないですし、何より新しさが重要ですから。

CDNが無くなったり、引っ越ししたりしたら、それに合わせてブログを更新するべきだと思います。
更新が遅い技術ブログなんて役に立たないっしょ?

何年も前に取得した古いライブラリを維持するとかは業務系システムで考えるべきことで、こういうブログは目新しさを求めてCDNを呼べば良いと思います。

さて、「run_prettify.js」ですが、これで描画に必要なスタイルシートとかも全部読み込んでくれています。

ですが、読み込む際にオプションを指定することが出来ます。




いくつかありますが、気になった所を挙げてみましょう。


  • autorun:自動実行。画面のonLoad時に自動実行することで、デフォルトはtrueです。どうも昔は自動実行が無くて、自分でonLoad実行しなきゃいけなかったようですが、今はこのとおり、自動実行でラクチンです。
  • lang:プログラミング言語の指定。code-prettifyは「Java表示モード」「Python表示モード」みたいに、言語毎にグラフィックを変えてくれるというIDEみたいな凄い技をやってくれます。そのデフォルト言語ですね。デフォルト言語をPythonにしておけば、何もしなければPythonモードで表示され、その上でJavaにしたい時はHTMLの中のclassにJavaを指定すればそこだけJavaモードになります。
  • skin:スキンの指定。後述。

大事なのは「skin」かな。




上記のページにあるスキンからお好みのものを選ぶことは出来ます。
当ブログは長らくdefaltでしたが、今回を期に「Sons-Of-Obsidian」に変更します。



<script src="https://cdn.rawgit.com/google/code-prettify/master/loader/run_prettify.js?skin=sons-of-obsidian"></script>



これで宣言完了。

書く

ここから先の使い方は簡単です。
例えばPythonのコードを載せたい時は、以下のようにHTMLを書けばOK。

<pre class="prettyprint linenums"><code class="language-python">...コード...</code></pre>

「linenums」とは行数を表示するオプションです。
特に理由が無い限りは常につけておいた方が良いでしょう。

実際、このやり方で上記の画像の状況だったソースを掲載すると以下になります。


import os
import json

dirPath = 'C:/MyMail_result'
files = os.listdir(dirPath)

#連想配列を作成
map = {}

#ファイルを全部読み込み
for file in files:
    f = open(os.path.join(dirPath,file))
    data = json.load(f)
    f.close()

    #name毎にsalienceを集計
    for entity in data['entities']:

        name = entity['name']

        if name in map:
            map[name] = map[name] + entity['salience']

        else:

            map[name] = entity['salience']

#集計結果をソート
resultList = reversed(sorted(map.items(), key=lambda x:x[1]))

#出力
for data in resultList:
    print(data[0] + '\t' + str(data[1]))

これこれ。
これをやりたかったんですよ。

今の時代なら絶対コレしか無い!!

終わりに

よっしゃ。これで綺麗になったぞ。
やっぱね、5年も同じブログを続けていると時代遅れになっている部分があったとしても、どうしても「これでいいや」って気分になりがちなんですよね。
今までそれでやって来ているわけですから。

でも、偶にで良いので振り返って、「いやいや、今ならもっと良いやり方があるぞ」という所を見つけたら、改善を決行しなければなりません。

「今までそれでやって来た」というだけで改善を行わないという怠慢!!

ブログ運営に限らず、業務を行う上では常に気を付けていきたいものです。

2018年3月19日月曜日

Pythonで社内システムを作ってみた~序章~

株式会社ジェニシス 技術開発事業部の遠藤 太志郎(Tacy)です。

先週まで勉強を兼ねて、PythonとGoogleの機械学習API「CLOUD NATURAL LANGUAGE API」の連載を行っていましたが、
おかげ様で何とか感触を掴めてきました。

しかし「勉強の為の勉強」だと、どうもピントがぼやけた調査になってしまうのが現実のところ。
そこで「社内システムの開発」を想定して、ちょっくらPythonで社内で使えそうなシステムを作ってみようと考えるに至り、ようやくある程度の形になってきたところです。

そこで、今回より新シリーズ「Pythonで社内システムを作ってみた」を始めていきたいと思います。

着想

テーマとして選んだのはSEならみんなお馴染みの、「業務経歴書」です。

弊社の業務経歴書はIT界で悪名高い神エクセルの類です。

エクエルに各自書き込むという方式なので記述粒度が人によって合ってなかったり、印刷してみると微妙に見切れちゃってたり、
とか細々とした問題が多いという感覚が現場の実感としてありました。

私の業務経歴書はこんな感じ。(ちょっとだけお見せします)



一見すると綺麗ですが、これがエクセルで、実は問題もあるんですよ。

デザインの改善点の指摘もあるのですが、何せ全員が各自個別にエクセルファイルを持っている形ですから、
デザイン変更したくても全員が同じようにレイアウト変更作業をやるのは大変だから二の足を踏んだりとか、
やっぱり「個別管理」「エクセル形式」というのは、手っ取り早いのは良いですけど長期的管理体制には不向き。

そこで私は「これをWebシステム化して一元管理したら業務改善になるんじゃないかな?」と考えるに至ったわけです。

課題

「Webシステム化する」と言うだけなら簡単ですが、それをソリューションとしてビルドアップするのは中々ハードルが高いです。
開発進行過程で課題になった点をご紹介しましょう。

言語はPython

これは課題と言うより「前提」ですが、言語は最初からPythonにしようと思っていました。
そもそもはPythonの勉強から始まっている、というのも大きいですが、もう一つの理由としては「優遇」があります。

プログラミング視点では「小規模Webシステムなんてどんな言語使っても対して変わらん」というのが実際のところですが、環境面だと意外にそうでもないです。

過去の連載で私はGoogleAppEngineを使用し、ネタバレになりますが今回はAWSを使用しましたが、その所感としてPythonはクラウド界で優遇されています。

クラウドサービスは言語を指定されている製品がありまして、「この製品はPythonは使えるけでRubyは未対応」など、クラウド製品の都合で言語が縛られるケースがあります。
そんな中、Pythonは常に対応していました。

  • とりあえずPythonならばクラウドはOK

私は寄らば大樹の陰という主義のエンジニアですが、Pythonは寄って安心の大樹だと思います。

基盤

基盤は「クラウド+サーバレス(従量課金制)」しか無いと最初から思っていました。

この業務経歴書管理システムは、その性質上、業務経歴が書き換わるタイミングしか出番が来ないものです。
個人単位だと数ヶ月~数年に一度しか使いません。

そんなシステムの為にサーバを常駐させておくなんてのはコスト的にあり得なくて、システムを使うときだけ費用が発生する従量課金制のクラウド・サーバレスサービスしか無いというのは自明の理でした。

サーバレスサービスは、やはり以前に連載していたGoogleAppEngineが業界代表格でしょう。
この連載の中で別のシステムを作っていましたから、「サーバレスとはどういうものか?」「どういう時に出番が来るのか?」という知見はありました。

今回は同じサーバレスでも別製品、AWSのサーバレスを使うことにしました。
GoogleではなくAWSにした理由は、弊社の方針ですね。
今後、弊社ではAWSに力を入れていこうという方針があるので、そこに乗っかることにしました。

特にAWSの方がGoogleより向いている何かがあったわけではありません。
しかし、あっちこっちの技術に手を伸ばしていると片手落ちになってしまうので、合わせられる部分は合わせよう、とAWSにすることにしました。

Webシステム・フレームワーク

「PythonでWebシステムを作るとしたら、フレームワークはどうしよう?」と思いました。
調べてみると「django(ジャンゴ)」というフレームワークが見つかったのでコレにしました。

と言うか、PythonのWebシステム界ではdjangoが支配的地位です。
django以外の選択肢なんかありません。


帳票出力

最大の問題点。
業務経歴書は印刷して面談に持って行くという紙媒体が運用上絶対に外せない要件です。

  • Webだけなら誰でも出来る。
  • 印刷はどうすりゃいいんだ!?

帳票出力は技術的最大のハードルです。

  • Yahooの時刻表印刷みたいにWeb画面を印刷する。
  • 現在と同じくExcelを出力する。
  • PDFで出力する。

色々考えて検証しましたが、これらにはそれぞれ問題点があって解消出来ませんでした。

  • Web画面印刷⇒ブラウザ依存でどうしても微妙に見栄えが変わってしまう。
  • Excel印刷⇒印刷時の見切れに対応出来ない。
  • PDF⇒柔軟性が無さ過ぎる。例えば営業が「ちょっと急ぎ手直ししたい」という状況が発生した時に書き換えられない。

これらを踏まえて、最終的に「Wordで出力する」という仕様に結論付けました。

Word出力もこれはこれで難しくて。。。
最初はPythonでやろうとしましたが、どうしても実現不可能なケースがあったので、Pythonは諦めてココだけJavaでやることにしました。

Word出力の奮闘記は後の連載でご紹介します。


システム構成

そんなこんなで試行錯誤した結果、以下のようなシステム構成図でまとまりました。



大きく「Webシステム」と「帳票出力API」に二分割されています。

終わりに

今後はシステム構築に至るまでの過程やノウハウの連載を始めていきたいと思います。


  • Webシステム実装:Python&Django編
  • Webシステムインフラ:AWS Elastic Beanstalk編
  • 帳票出力API実装:Apache POI編
  • 帳票出力APIインフラ:AWS Lambda編


システム全体としては色々と詰め込まれていますが、それぞれ非常に疎結合となっています。

「ベンダーロックオン」と言いまして、クラウドの話をすると以後ずっとそのクラウドから抜け出せなくなることを気にされるケースがありますが、作ってみたところ、別にそんなことは無さそうでした。

ログ出力の設定とか多少のことはありますが、「作ったアプリのインフラを別のところに引っ越したいんだけど?」となった場合でも、特に問題にはならない規模です。

従って、連載を進めていく上で「インフラ編を読んだ後じゃないと実装編の意味が分からない」とかにもならないと思います。

連載は、システム規模が


  • Webシステム>>>帳票出力API


なので、まずは手短な帳票出力API編から始めていきたいと思います。

2018年2月28日水曜日

【Googleクラウド・機械学習編】日報解析バッチ作成中4~集計~

株式会社ジェニシス 技術開発事業部の遠藤 太志郎(Tacy)です。

最近は機械学習について勉強中です。
現在はGoogleの機械学習API「CLOUD NATURAL LANGUAGE API」の検証と、Pythonの勉強を並行して進行しています。

初心者の勉強として、簡単なバッチを作っている最中です。
大した内容はありませんが、お付き合いください。


集計へ

前回にて、何とか自分の日報メールをAPIに食わせて、結果ファイルを取得するところまで成功しました。
現状、以下のようにJSONファイルがズラリとローカルに保管されております。


一個一個のファイルの中身は、以下のようにJSON文字列が入っています。

{
  "entities": [
    {
      "name": "日報",
      "type": "OTHER",
      "metadata": {},
      "salience": 0.20918807,
      "mentions": [
        {
          "text": {
            "content": "日報",
            "beginOffset": 21
          },
          "type": "COMMON"
        }
      ]
    },
    {
      "name": "結合テスト項目書",
      "type": "OTHER",
      "metadata": {},
      "salience": 0.113717824,
      "mentions": [
        {
          "text": {
            "content": "結合テスト項目書",
            "beginOffset": 169
          },
          "type": "COMMON"
        },
        {
          "text": {
            "content": "結合テスト項目書",
            "beginOffset": 203
          },
          "type": "COMMON"
        }
      ]
    },
    {
      "name": "稼働時間",
      "type": "OTHER",
      "metadata": {},
      "salience": 0.111668386,
      "mentions": [
        {
          "text": {
            "content": "稼働時間",
            "beginOffset": 53
          },
          "type": "COMMON"
        }
      ]
    },

……続く


ファイルには


  • "name": "結合テスト項目書"
  • "salience": 0.113717824

のように「キーとなる単語」と、その重要度が数値でセットされています。
つまり、単語毎にグルーピングして集計すれば、私の日報の中から頻出する重要キーワードが浮かび上がる、と。
こういう段取りなわけです。

では、集計バッチを作ってみましょう。


集計バッチ

こんなものを作りました。

import os
import json

dirPath = 'C:/MyMail_result'
files = os.listdir(dirPath)

#連想配列を作成
map = {}

#ファイルを全部読み込み
for file in files:
    f = open(os.path.join(dirPath,file))
    data = json.load(f)
    f.close()

    #name毎にsalienceを集計
    for entity in data['entities']:

        name = entity['name']

        if name in map:
            map[name] = map[name] + entity['salience']

        else:

            map[name] = entity['salience']

#集計結果をソート
resultList = reversed(sorted(map.items(), key=lambda x:x[1]))

#出力
for data in resultList:
    print(data[0] + '\t' + str(data[1]))

それほど大したバッチではありませんが、特徴は連想配列かな?


  • map = {}

PythonではこれでHashMapを作ったことと同じ事になります。

私の好みの部分もありますが、オブジェクト指向において、Mapというのはちと問題児だと思います。
基本的には「型」を定義して、そこに突っ込むのがオブジェクト指向であって、その「型」は厳密に定められているものです。

Mapは何でもぶっこめるので型も何もあったもんじゃない。
ソースがグジャグジャになる原因の一つだと思います。

しかしですね、ここで考慮しなければならないのが、Pythonが動的型付け言語であるということです。

Mapに何でもぶっこんでおいても、Pythonが動的に型を合わせてくれますので。
静的型付け言語で、必要に応じてキャストまでしなければならないJavaとは大きく違う部分です。

つまり、Pythonはむしろ、気軽にMapを使ってパッパと開発していく、そういう用途の為の言語であると言えるでしょう。

だから今回みたいに、ちょっとした計算バッチはパッパとMapで済ませてしまえばOK。

前も書きましたが、Pythonは「ちょっとした計算の集合体」に向く言語です。
Javaは「定められた一貫性」に優れる言語です。

見方を変えれば、
HTTPリクエストやJSONファイルみたいに、どんな内容でも自由に突っ込まれてくる情報の取り扱いは、Pythonが優れる。
RDBMSみたいに、「このテーブルのこのカラムはVARCHAR2」とガッチリ決まっていて不動の所はJavaが優れる。

ならば、「WebシステムでDBに保存する処理はどっちの言語が良いの?」と問われれば、
これが悩ましいです。

MVCモデルのうち、コントロール部はPython、モデル部はJavaに軍配が上がると思います。(ビュー部はHTMLだから関係無い)

従って、私がここ最近Pythonを触ってみた感触としては、こういう感想です。

  • テーブルの数が多いシステムはJava。
  • テーブルの数が少ないシステムはPython。

指標値とするべきはテーブルの数!!

「テーブルの数が多い=STEP数も多い=画面数も多い」となりがちなので、STEP数や画面数を指標としても同じような判断に落ち着く事も多いと思いますが、
テーブル数主眼が本質という考え方はアリだと思います。

「多い/少ない」の分かれ目は、これも感覚的なものですが……、20コくらいが上限じゃないでしょうか?
一つのシステムで20テーブルを超えたら、もう大規模システムの領域だと思います。
Pythonで似たようなことをやりたいなら、システムを2つに分割して10テーブルの小さなシステムを2つ作るとか、
サービスデザインを見直すべきところでしょう。

集計結果

ともかく、これで集計出来ました。
さあ、私の日報の分析結果は如何に。

日報 30.935778224999996
稼働時間 17.395398603999993
概要 7.594298239
詳細 4.874361350999999
作成 4.006452768100001
打ち合わせ 2.7061136348
提案書作成作業 1.90614234
ネットワーク接続作業 1.6254301270000004
プロパー 1.5154260646000002
作業 1.4572377554000002
ジェニシス 1.4317204425000003
見積もり 1.4068984159999998
稼働 1.245910729
事 1.1966940003
技術調査 1.1899960548
ソース解析 1.07680666
人 1.0335532006
予定 1.002557445
気づき 0.9903137190000001
帳票 0.9701202919999999
サンプル 0.9039525214999999
構築方針書 0.8930587449999999
マネージャー 0.8877154268999999
連絡事項 0.8676672089
システム 0.8229978675000001
プロジェクト 0.8194439760000002
話 0.8187522889000002
資料 0.8143453079000003
Java 0.7839326217000001
客先 0.7562989093
こと 0.7256286095000003
準備 0.6499679165000001
画面 0.6439224732000001
BI 0.6338003121
サンプルHTML 0.6266641692999999
Oracle 0.6084089060000001
GCOM 0.5797013178999999
検討 0.5605384631
機能 0.5536394495999999
パッケージ 0.5513561149999999
調査 0.5406491108
現場 0.5338922546000001
プラン 0.5171976732
方針 0.4683039328
要件定義 0.4537456172
単体テスト 0.44251170900000003
部分 0.4377159611
設計書 0.4054884552
内部 0.3879731024
方 0.3855670599999999
ビジネスフロー 0.384925288
クラウド基盤 0.3830445173
要件定義工程 0.3821089
開発 0.3820660644
結合テスト項目書 0.37300472500000004
チームミーティング 0.36438519610000003
放置状態 0.363936127
STEP数 0.35657688679999994
ビジネスフロー作成フェーズ 0.3412589773
ソースレビュー 0.338786632
BIプラン 0.337376835
提案書 0.32983535729999996
画面構成検討 0.32272407500000005
提案書作成作業:08:00h 0.31764615100000004
ございませ 0.30836847
構成 0.30728194200000003
帰社 0.30420098119999994
レビュー 0.3030037097
状況 0.3007273611
支援 0.29845437710000006
ソース解析:08:00h 0.293045449
もの 0.29084775009999997
待機 0.28608122
調整 0.285563885
チャンス 0.27885413449999996
合宿 0.2785616205
結合テスト 0.277871993
リリース 0.263083156
感じ 0.25053776079999995
問題 0.25040119800000005
導入 0.24158003300000003
勉強会 0.2364971065
画面構成検討:08:00h 0.235985352
案件 0.2346195449
承認 0.2288930412
Oracleクラウド 0.22463897
インターネット 0.22296365950000002
★個人名につき秘密★ 0.22103915889999995
時間 0.21647127900000002
構築方針書作成:08:00h 0.213250314
処理 0.212900709
HTML 0.2093946756
見積もり作業 0.20597136
客先打ち合わせ 0.204712169
内部調整:08:00h 0.204112792
プロジェクト構築検討:08:00h 0.202727818
課題 0.20266155249999998
結合テスト項目書作成:08:00h 0.197733019
ソース解析作業 0.19659552349999998

全部で2000行もあるのでTOP100だけ載せますが……。

ん、ん~……。

何も読み取れないというのが正直なところ。

とは言え、「あっ、この人、SEだ!!」ということは伝わってきますよね。

私だと使い道が思い浮かばなくても、広告業とかやっている人には使い道がありそうな気もしますね。

断定的な処理を行う材料には使えなくて、ヤマを張る為の参考情報くらいが使い道なようです。

例えば、


  • 客先打ち合わせ 0.204712169


「打ち合わせ」というキーワードで引っ掛けて、その数字が0.5を超えたら、それだけ日報に多数の「打ち合わせ」という単語が登場しているということですから、

「コイツは打ち合わせばっかりやっている可能性がある。不要な会議をやっていないか確認して、必要であればテコ入れしろ!!」

とアラートを出すとか、ね。

具体的な実用化案までは考えられませんか、どういうシロモノかという感覚は理解出来た気がします。

終わりに

興味本位で始めた連載でしたが、なかなか面白かったと思います。
自分の業務で即刻役に立つものではありませんが、見分を広めるという意味では良かったかな、と思います。

ネットで記事を読むだけと、ショボくても良いから自分で作ってみるのは、結構違うものです。

今後も色々と調べていきたいですね。

2018年2月19日月曜日

【Googleクラウド・機械学習編】日報解析バッチ作成中3~リクエスト送信~

株式会社ジェニシス 技術開発事業部の遠藤 太志郎(Tacy)です。

最近は機械学習について勉強中です。
現在はGoogleの機械学習API「CLOUD NATURAL LANGUAGE API」の検証と、Pythonの勉強を並行して進行しています。

初心者の勉強として、簡単なバッチを作っている最中です。
大した内容はありませんが、お付き合いください。


リクエスト送信

前回の作業にて、ファイルを読み込むところまでは確認出来ました。
今度はこれをAPIに送り込まなければなりません。

最難関となるリクエスト送信処理そのものはもっと前に検証して解決しているので、今回行うのは簡単なテキスト加工ですね。

テキスト

私の日報は必ず以下のような形式になっています。


Delivered-To: endo@genesis-net.co.jp
Received: by 10.60.116.6 with SMTP id js6csp2150228oeb;
        Tue, 28 Jul 2015 06:16:25 -0700 (PDT)
X-Received: by 10.60.142.234 with SMTP id rz10mr33362752oeb.4.1438089385353;
        Tue, 28 Jul 2015 06:16:25 -0700 (PDT)
Return-Path: <3qIC3VRMJBDsdbkbpfp-dXb-pbosfZbdjXfi.Zljbkaldbkbpfp-kbq.Zl.gm@2uix4h7xygsz66weerlq.apphosting.bounces.google.com>
Received: from mail-pd0-f197.google.com (mail-pd0-f197.google.com. [209.85.192.197])
        by mx.google.com with ESMTPS id ma3si53036429pdb.163.2015.07.28.06.16.24
        for <endo@genesis-net.co.jp>
        (version=TLS1_2 cipher=ECDHE-RSA-AES128-GCM-SHA256 bits=128/128);
        Tue, 28 Jul 2015 06:16:25 -0700 (PDT)
Received-SPF: pass (google.com: domain of 3qIC3VRMJBDsdbkbpfp-dXb-pbosfZbdjXfi.Zljbkaldbkbpfp-kbq.Zl.gm@2uix4h7xygsz66weerlq.apphosting.bounces.google.com designates 209.85.192.197 as permitted sender) client-ip=209.85.192.197;
Authentication-Results: mx.google.com;
       spf=pass (google.com: domain of 3qIC3VRMJBDsdbkbpfp-dXb-pbosfZbdjXfi.Zljbkaldbkbpfp-kbq.Zl.gm@2uix4h7xygsz66weerlq.apphosting.bounces.google.com designates 209.85.192.197 as permitted sender) smtp.mail=3qIC3VRMJBDsdbkbpfp-dXb-pbosfZbdjXfi.Zljbkaldbkbpfp-kbq.Zl.gm@2uix4h7xygsz66weerlq.apphosting.bounces.google.com
Received: by pdbpo3 with SMTP id po3so221230738pdb.1
        for <endo@genesis-net.co.jp>; Tue, 28 Jul 2015 06:16:24 -0700 (PDT)
X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;
        d=1e100.net; s=20130820;
        h=mime-version:reply-to:message-id:date:subject:from:to:content-type
         :content-transfer-encoding;
        bh=449+r7RRDqf7+TpVrGlImqmP3nYBDuppv9kcCar1VM8=;
        b=Ex7Z3fWrUdO//VwmvJl4tECF79NZGChauQzCEd5f4uCZ3YIC6m02Damyzwxg+W1pmO
         96vdBP56t3on+zNqYbjXdE50MnZlbq41s+rhfmpN3744ow7ce/ocruBueluTNlMQuHZO
         Ct0+vALQ7aTtyC0UNE+RnNU1oGDcA0hTUueL8e93SFbJVcCPtgg+bvn8zx3zhj0l5Da0
         axnU9Figlz+M/Vazvy95mppTOlBzCQobqXZkeobBupWkFaYLxny0/bKXjkiq16sa5EZ1
         Vp2BYtR/7lc5eHQcg3NHK+dtiR6QU4UsM98P1B8b1jQrWm8MfVJKEcUDP6ls6YROZMDk
         pSoQ==
MIME-Version: 1.0
X-Received: by 10.66.146.227 with SMTP id tf3mr36223044pab.21.1438089384636;
 Tue, 28 Jul 2015 06:16:24 -0700 (PDT)
Reply-To: "endo@genesis-net.co.jp" <endo@genesis-net.co.jp>
X-Google-Appengine-App-Id: s~genesis-gae-service
X-Google-Appengine-App-Id-Alias: genesis-gae-service
Message-ID: <047d7b6dc768ed3c29051bef4663@google.com>
Date: Tue, 28 Jul 2015 13:16:24 +0000
Subject: =?ISO-2022-JP?B?GyRCIVpGfEpzIVsxc0YjGyhCXzIwMTUwNzI4?=
From: "endo@genesis-net.co.jp" <endo@genesis-net.co.jp>
To: "HIMITSU@genesis-net.co.jp" <HIMITSU@genesis-net.co.jp>
Content-Type: text/plain; charset=ISO-2022-JP; format=flowed; delsp=yes
Content-Transfer-Encoding: 7bit
○○ さん
お疲れ様です。遠藤です。
2015年07月28日の日報を送付します。
【稼働時間】・09:00~18:00 (08:00h)
【概要】・実装:08:00h
【詳細】 報告内容がズラズラっと。
【連絡事項】・7/31(金):帰社
以上、よろしくお願いします。
--
================================================
遠藤 太志郎
株式会社ジェニシス技術開発事業部@春日
Mail:endo@genesis-net.co.jp
歯科医院予約管理システムDentNet facebook
http://www.facebook.com/dentnet.genesis
株式会社ジェニシス技術開発事業部ブログ
http://genesis-tdsg.blogspot.jp/
================================================

解析が必要な部分は赤文字の部分だけです。従って、

  • お疲れ様です。
  • 以上、よろしくお願いします。

この2つのキーワードを「開始」と「終了」の目印として使うことが出来そうです。

まあ、私のメールだからこんなやり方でフィルタリングできますが、もっと形態不明なメールを解析するのであれば、違う目印が必要になるでしょうね。

今はテキストベースでやっていますからこういうやり方ですが、ちゃんと環境を整えれば「ヘッダー」と「ボディ」を見分けるくらい出来ると思います。

その条件で、ファイルの文中から解析したい部分だけを切り取るロジックがこちら。

def read_content(file):
    flg = False;
    content = ''
    for line in open(os.path.join(dirPath, file), 'r', encoding='ISO-2022-JP'):

        if line.find('以上、よろしくお願いします。') == 0:
            flg = False

        if flg:
            content = content + line
        else:
            if line.find("お疲れ様です。") == 0:
                flg = True

    return content

特筆することはありません。

ただ、こういう文字列加工ってチョコチョコチョコチョコ作業するものなんですよね。
Pythonというのは、このチョコチョコ作業に向いている性質があると思います。

言語の向き、不向きを肌感触で知っていることは重要だと思いますね。

文字列が構築出来ましたら、後はそれをJSONに組み込んで送り込むだけです。

def send_request(content, file):
    # 送信先URL
    url = "https://language.googleapis.com/v1/documents:analyzeEntities?key=himitsu"

    # 送信するJSONパラメータ
    body = {
        'document': {
            'type': 'PLAIN_TEXT',
            'content': content
        },
        'encodingType': 'UTF8'
    }

    body = json.dumps(body).encode("utf-8")

    # リクエストヘッダー
    header = {
        "content-type": "application/json"
    }

    # リクエストメソッド
    method = "POST"

    try:
        # 送信実行
        request = urllib.request.Request(url, data=body, headers=header)
        with urllib.request.urlopen(request) as response:
            # 結果を出力
            response_body = response.read().decode("utf-8")
            print("レスポンスを受信しました。")
            print(response_body)

            f = open(os.path.join(exportPath, file + '.json'), 'w')  # 書き込みモードで開く
            f.writelines(response_body)
            f.close()

    except urllib.error.HTTPError as e:
        # エラーだった場合、エラー原因を出力
        print('ERROR!!')
        print(e.code)
        print(e.read())


特筆するべきは、JSONの構築箇所です。

    # 送信するJSONパラメータ
    body = {
        'document': {
            'type': 'PLAIN_TEXT',
            'content': content
        },
        'encodingType': 'UTF8'
    }

これ。
contentが上記で構築した変数ですが、このように、JSONの構造が見える状態で形成することが出来ました。

  • "body = {" + {\'document\': {" + "\'content' + content ……

みたいなエスケープ文字の羅列だと読めないですからね!!
このようにJSONをJSONとして取り扱い出来ることが大変すばらしいです。

後はリクエストを送り、受領したレスポンスをファイルに一時保存すれば終わり。

f = open(os.path.join(exportPath, file + '.json'), 'w')  # 書き込みモードで開く
f.writelines(response_body)
f.close()

ファイルの書き込みはこれでOKです。

終わりに

これでズラーッと解析結果を取得出来ました。


後は、この結果ファイル一覧を読み込んで、どんなデータが入っているか見てみようと思います。