DataFrame や Series内のデータ参照は「iat」で行おう
カラム:ITEM, NUM (適当に作った為、特に意味の無いデータです)>>> Data.head() ITEM NUM 0 02134 1 1 04137 1 2 03900 1 3 00792 1 4 03678 1 >>> print(len(Data)) 1000000メソッドごとの処理時間の比較
1. メソッドを用いない場合(カラム名、インデックスで直接指定)
t = time.time() for i in range(len(Data)): Data['NUM'][i] print(time.time()-t) # 54.226483583450322.
を用いた場合t = time.time() for i in range(len(Data)): Data.iloc[i,1] print(time.time()-t) # 16.671371221542363.
を用いた場合t = time.time() for i in range(len(Data)): Data.iat[i,1] print(time.time()-t) # 10.457467794418335結果
メソッド データ数 処理時間(s) 無 10^6 54.23 iloc 10^6 16.67 iat 10^6 10.46 感想
10^6 程の大きさのデータに対してもこれだけの差が出るとは思っていなかった為、少々驚きました。
最新機械学習モデル HistGradientBoostingTreeの性能調査(LightGBMと比較検証)
scikit-learn v0.21 で追加された HistGradientBoosting*
ヒストグラムベースの勾配ブースティング木。LightGBMの系譜。n_samples >= 10,000 のデータセットの場合、sklearn.ensemble.GradientBoostingClassifierよりもずっと高速に動く。
OS: macOS HighSierra 10.13.6(Retina, Early 2015) CPU: 3.1GHz Intel Core i7 MEM: 16GB 1867MHz DDR3 GPU: Intel Iris Graphics 6100 1536MB開発環境
Python==3.6.8 jupyter notebookimport numpy as np import pandas as pd import lightgbm as lgbm import seaborn as sns import matplotlib.pyplot as plt %matplotlib inline import warnings warnings.filterwarnings('ignore') from IPython.core.interactiveshell import InteractiveShell InteractiveShell.ast_node_interactivity = 'all' %reload_ext autoreload %autoreload 2HistGradientBoostingTree インストール
!pip install -U scikit-learn==0.21.02.ライブラリをインポート
import sklearn sklearn.__version__ '0.21.0'3.現状では、from sklearn.experimental import enable_hist_gradient_boostingを一緒にインポートする必要性がある
from sklearn.experimental import enable_hist_gradient_boosting from sklearn.ensemble import HistGradientBoostingClassifier速度計測
import time from contextlib import contextmanager @contextmanager def timer(name): t0 = time.time() yield study, params, value print(f'[{name}] done in {time.time() - t0:.0f} s') print(f'[params]: \n{params}') print(f'[value]: {value}')データ
Titanic: Machine Learning from Disaster
このコンペは、タイタニック号に乗船した、各乗客の購入したチケットのクラス(Pclass1, 2, 3の順で高いクラス)や、料金(Fare)、年齢(Age)、性別(Sex)、出港地(Embarked)、部屋番号(Cabin)、チケット番号(Tichket)、乗船していた兄弟または配偶者の数(SibSp)、乗船していた親または子供の数(Parch)など情報があり、そこからタイタニック号が氷山に衝突し沈没した際生存したかどうか(Survived)を予測する。
変数名 特徴 PassengerId 乗客識別ユニークID Survived 生死 Pclass チケットクラス Name 乗客の名前 Sex 性別 Age 年齢 SibSp タイタニックに同乗している兄弟/配偶者の数 Parch タイタニックに同乗している親/子供の数 Ticket チケット番号 Cabin 客室番号 Embarked 出港地(タイタニックへ乗った港) 前処理
train = pd.read_csv('train.csv') test = pd.read_csv('test.csv') # 欠損値を見ていくとAge, Cabin, Embarked, Fareがあることがわかる。 train.isnull().sum() test.isnull().sum() # Name, Sex, Ticket, Cabin, Embarkedのデータ型はObject型なのがわかる # 機械学習モデルを適用するために、数値型に変換する train.dtypes test.dtypes # Object型のName, Ticket, Cabinはカーディナリティが高く変換しづらいので削除 train = train.drop(['Name', 'Ticket', 'Cabin'], axis=1) test = test.drop(['Name', 'Ticket', 'Cabin'], axis=1) # Object型のEmbarked, Sexはカーディナリティが低く、変換しやすい数値データに変換 import category_encoders object_columns = ['Embarked', 'Sex'] encode = category_encoders.OrdinalEncoder(cols=object_columns, handle_unknown='impute') train = encode.fit_transform(train) test = encode.fit_transform(test) # NaNが4に割り振られているものを修正 #encode.category_mapping #encoded_train['Embarked'].value_counts() train['Embarked'].replace(4, np.nan, inplace=True) #encoded_train.isnull().sum() # Fare欠損値埋め # 予測したいデータ fare_null = test[test['Fare'].isnull()].drop(['Fare'], axis=1) # トレーニングデータ fare_X = test[~test['Fare'].isnull()].drop(['Fare'], axis=1) fare_y = test[~test['Fare'].isnull()]['Fare'] params = { 'boosting_type': 'gbdt', 'objective': 'regression_l2', 'metric': 'l2', 'num_leaves': 40, 'learning_rate': 0.05, 'feature_fraction': 0.9, 'bagging_fraction': 0.8, 'bagging_freq': 5, 'lambda_l2': 2, } fare_pred = lgbm.LGBMRegressor(**params).fit(fare_X, fare_y).predict(fare_null) test['Fare'].replace(np.nan, int(fare_pred), inplace=True) # Age欠損値埋め # 予測したいデータ age_null = pd.concat([ train[train['Age'].isnull()], test[test['Age'].isnull()] ]).drop(['Survived', 'Age'], axis=1) age_null_train = train[train['Age'].isnull()].drop(['Survived', 'Age'], axis=1) age_null_test = test[test['Age'].isnull()].drop(['Age'], axis=1) # トレーニングデータ age_X = pd.concat([ train[~train['Age'].isnull()], test[~test['Age'].isnull()] ]).drop(['Survived','Age'], axis=1) age_y = pd.concat([ train[~train['Age'].isnull()], test[~test['Age'].isnull()] ])['Age'] params = { 'boosting_type': 'gbdt', 'objective': 'regression_l2', 'metric': 'l2', 'num_leaves': 40, 'learning_rate': 0.05, 'feature_fraction': 0.9, 'bagging_fraction': 0.8, 'bagging_freq': 5, 'lambda_l2': 2, } age_pred_train = lgbm.LGBMRegressor(**params).fit(age_X, age_y).predict(age_null_train) age_pred_test = lgbm.LGBMRegressor(**params).fit(age_X, age_y).predict(age_null_test) # 欠損値 nan = np.zeros(age_pred_train.shape[0]) nan[:] = np.nan train['Age'].replace(nan, age_pred_train.astype(np.float64), inplace=True) nan = np.zeros(age_pred_test.shape[0]) nan[:] = np.nan test['Age'].replace(nan, age_pred_test.astype(np.float64), inplace=True) # Embarked欠損値埋め # 予測したいデータ embarked_null = train[train['Embarked'].isnull()].drop(['Survived', 'Embarked'], axis=1) # トレーニングデータ embarked_X = train[~train['Embarked'].isnull()].drop(['Survived', 'Embarked'], axis=1) embarked_y = train[~train['Embarked'].isnull()]['Embarked'] params = { 'boosting_type': 'gbdt', 'objective': 'multiclass', 'num_class': 4, 'num_leaves': 40, 'learning_rate': 0.05, 'feature_fraction': 0.9, 'bagging_fraction': 0.8, 'bagging_freq': 5, 'lambda_l2': 2, } embarked_pred = lgbm.LGBMClassifier(**params).fit(embarked_X, embarked_y).predict(embarked_null) nan = np.zeros(embarked_pred.shape[0]) nan[:] = np.nan train['Embarked'].replace(nan, embarked_pred.astype(np.float64), inplace=True)機械学習をさせるために、トレーニングデータを説明変数と目的変数に分離する
X = train.drop(['Survived'], axis=1) y = train['Survived']Method
import optuna import lightgbm as lgbm from sklearn.model_selection import StratifiedKFold from sklearn.model_selection import cross_validate from sklearn.metrics import accuracy_score交差検証を5回、一度のイテレーションでoptunaの学習を100回試行させる
SEED = 0 NFOLDS = 5 NTRIAL = 100モデルのパラメータをoptunadeで設定
def tuning_parameter(trial, classifier): if classifier == 'LightGBM': params = {} params['objective'] = 'binary' params['random_state'] = SEED params['metric'] = 'binary_logloss' params['verbosity'] = -1 params['boosting_type'] = trial.suggest_categorical('boosting', ['gbdt', 'dart', 'goss']) # モデル訓練のスピードを上げる params['bagging_freq'] = 0 params['save_binary'] = False # 推測精度を向上させる params['learning_rate'] = trial.suggest_loguniform('learning_rate', 1e-8, 1.0) params['num_iterations'] = trial.suggest_int('num_iterations', 10, 1000) params['num_leaves'] = trial.suggest_int('num_leaves', 5, 1000) params['max_bins'] = trial.suggest_int('max_bins', 2, 256) # 過学習対策 # early stoppingは今回使わない。切り方によって、性能を高く見積もる可能性があるため。 # データ数が少ないため、早期に切り上げる必要性を感じないため。 params['min_data_in_leaf'] = trial.suggest_int('min_data_in_leaf', 10, 1000) params['feature_fraction'] = 1.0#feature * 0.01 params['bagging_fraction'] = trial.suggest_uniform('bagging_fraction', 0, 1.0) params['min_child_weight'] = trial.suggest_int('min_child_weight', 0, 1e-3) params['lambda_l1'] = trial.suggest_int('lambda_l1', 0, 500) params['lambda_l2'] = trial.suggest_int('lambda_l2', 0, 500) params['min_gain_to_split'] = 0.0 params['max_depth'] = trial.suggest_int('max_depth', 6, 10) if params['boosting_type'] == 'dart': params['drop_rate'] = trial.suggest_loguniform('drop_rate', 1e-8, 1.0) params['skip_drop'] = trial.suggest_loguniform('skip_drop', 1e-8, 1.0) if params['boosting_type'] == 'goss': params['top_rate'] = trial.suggest_uniform('top_rate', 0.0, 1.0) params['other_rate'] = trial.suggest_uniform('other_rate', 0.0, 1.0 - params['top_rate']) return params if classifier == 'HistGradientBoostingClassifier': params = {} params['random_state'] = SEED params['loss'] = 'binary_crossentropy' params['verbose'] = -1 # モデル訓練のスピードを上げる params['tol'] = trial.suggest_loguniform('tol', 1e-8, 1e-1) # 推測精度を向上させる params['learning_rate'] = trial.suggest_loguniform('learning_rate', 1e-8, 1.0) params['max_iter'] = trial.suggest_int('max_iter', 10, 1000) params['max_leaf_nodes'] = trial.suggest_int('max_leaf_nodes', 5, 1000) params['max_bins'] = trial.suggest_int('max_bins', 2, 256) params['min_samples_leaf'] = trial.suggest_int('min_samples_leaf', 1, 100) # 過学習対策 params['max_depth'] = trial.suggest_int('max_depth', 6, 10) params['validation_fraction'] = 1.0 #feature * 0.01 params['l2_regularization'] = trial.suggest_int('l2_regularization', 0, 500) return paramsdef estimator(classifier, params): if classifier == 'LightGBM': return lgbm.LGBMClassifier(**params) if classifier == 'HistGradientBoostingClassifier': return HistGradientBoostingClassifier(**params)def evaluate_score(): return { 'accuracy': make_scorer(accuracy_score) }class Objective(object): def __init__(self, dataset): self.X, self.y = dataset['training'], dataset['answer'] def __call__(self, trial): classifier = dataset['classifier'] if 'classifier' in dataset else trial.suggest_categorical('classifier', ['LightGBM', 'HistGradientBoostingClassifier']) params = tuning_parameter(trial, classifier) clf = estimator(classifier, params) score = evaluate_score() kf = StratifiedKFold(n_splits=NFOLDS, shuffle=True, random_state=SEED) scores = cross_validate(estimator=clf, X=self.X, y=self.y, cv=kf, scoring=score, n_jobs=-1) return 1.0 - scores['test_accuracy'].mean()def bayesian_optimize_parameter(dataset): objective = Objective(dataset) study = optuna.create_study() study.optimize(objective, n_trials=NTRIAL) return study, study.best_params, study.best_valueResult
dataset = {'classifier': 'HistGradientBoostingClassifier', 'training': X, 'answer': y} with timer('HistGradientBoostingClassifier'): study, params, value = bayesian_optimize_parameter(dataset)LightGBM
dataset = {'classifier': 'LightGBM', 'training': X, 'answer': y} with timer('LightGBM'): study, params, value = bayesian_optimize_parameter(dataset)ハイパーパラメータ探索結果
HGB1 [HistGradientBoostingClassifier] done in 238 s [params] {'tol': 1.0935262659564037e-05,'learning_rate': 0.21843938001639163, 'max_iter': 832, 'max_leaf_nodes': 343, 'max_bins': 51, 'min_samples_leaf': 36, 'max_depth': 6, 'l2_regularization': 300} [value] 0.17171144487154533 HGB2 [HistGradientBoostingClassifier] done in 321 s [params] {'tol': 1.1107827067059412e-08, 'learning_rate': 0.12517792167214872, 'max_iter': 800, 'max_leaf_nodes': 861, 'max_bins': 62, 'min_samples_leaf': 41, 'max_depth': 9, 'l2_regularization': 85} [value] 0.17953253206713848 HGB3 [HistGradientBoostingClassifier] done in 367 s [params] {'tol': 6.896662261124894e-08, 'learning_rate': 0.14764781999824614, 'max_iter': 1000, 'max_leaf_nodes': 503, 'max_bins': 96, 'min_samples_leaf': 50, 'max_depth': 7, 'l2_regularization': 476} [value] 0.17954536991623837 HGB4 [HistGradientBoostingClassifier] done in 271 s [params] {'tol': 0.0024598056599173636, 'learning_rate': 0.9659403525328403, 'max_iter': 294, 'max_leaf_nodes': 585, 'max_bins': 155, 'min_samples_leaf': 30, 'max_depth': 7, 'l2_regularization': 377} [value] 0.17955164698610204 HGB5 [HistGradientBoostingClassifier] done in 478 s [params] {'tol': 0.0005293901246527085, 'learning_rate': 0.12635631912783424, 'max_iter': 865, 'max_leaf_nodes': 7, 'max_bins': 254, 'min_samples_leaf': 30, 'max_depth': 6, 'l2_regularization': 307} [value] 0.17618713753911197LGBM1 [LightGBM] done in 43 s [params] {'boosting': 'dart', 'learning_rate': 0.004137394958415602, 'num_iterations': 158, 'num_leaves': 759, 'max_bins': 111, 'min_data_in_leaf': 932, 'bagging_fraction': 0.1684261701192018, 'min_child_weight': 0, 'lambda_l1': 445, 'lambda_l2': 485, 'max_depth': 7, 'drop_rate': 0.0038674989023377714, 'skip_drop': 1.8097533524230508e-05} [value] 0.3838350910902135 LGBM2 [LightGBM] done in 34 s [params] {'boosting': 'gbdt', 'learning_rate': 0.004745373948180777, 'num_iterations': 326, 'num_leaves': 642, 'max_bins': 205, 'min_data_in_leaf': 76, 'bagging_fraction': 0.23307801646070203, 'min_child_weight': 0, 'lambda_l1': 284, 'lambda_l2': 297, 'max_depth': 7} [value] 0.3838350910902135 LGBM3 [LightGBM] done in 27 s [params] {'boosting': 'dart', 'learning_rate': 4.9615250130452045e-08, 'num_iterations': 396, 'num_leaves': 313, 'max_bins': 212, 'min_data_in_leaf': 651, 'bagging_fraction': 0.5520979835666021, 'min_child_weight': 0, 'lambda_l1': 372, 'lambda_l2': 418, 'max_depth': 7, 'drop_rate': 0.033146741471333195, 'skip_drop': 2.5375076235227994e-06} [value] 0.3838350910902135 LGBM4 [LightGBM] done in 26 s [params] {'boosting': 'goss', 'learning_rate': 0.40258324836757814, 'num_iterations': 371, 'num_leaves': 516, 'max_bins': 68, 'min_data_in_leaf': 959, 'bagging_fraction': 0.0734967883663078, 'min_child_weight': 0, 'lambda_l1': 406, 'lambda_l2': 82, 'max_depth': 6, 'top_rate': 0.2811244648326302, 'other_rate': 0.3144101282050923} [value] 0.3838350910902135 LGBM5 [LightGBM] done in 31 s [params] {'boosting': 'dart', 'learning_rate': 0.0014181192774496755, 'num_iterations': 426, 'num_leaves': 41, 'max_bins': 62, 'min_data_in_leaf': 186, 'bagging_fraction': 0.8023598243375999, 'min_child_weight': 0, 'lambda_l1': 8, 'lambda_l2': 21, 'max_depth': 7, 'drop_rate': 0.3898994081662355, 'skip_drop': 0.006867493636822156} [value] 0.21320337316258287精度と速度
KaggleのSubmissionのScoreに合わせて1.0 - study.best_valueして精度を算出
モデル1 モデル2 モデル3 モデル4 モデル5 HGB 0.82828 0.82046 0.82045 0.82044 0.82381 LGBM 0.61616 0.61616 0.61616 0.61616 0.78679
平均速度(秒/回) 最良速度(秒/回) 最低速度(秒/回) optuna平均精度 optuna 最良精度 optuna 最低精度 HGB 335 238 478 0.8227 0.82829 0.82382 LGBM 32 26 43 0.6503 0.7867 0.61617 LGBMの方が速度が10倍早く収束する。精度はHGBが平均して高い値を出している。最良精度も最低精度もHGBが高い値を出している。
learning_rate: 0.316712(初期値0.1) max_iter: 758(初期値100)過学習対策
max_bins: 123(初期値255) tol: 0.0006(初期値1e-7=0.0000001) l2_regularization: 309(初期値0)不安要素
max_leaf_nodes: 459(初期値31) min_samples_leaf: 37(初期値20)全体: 過学習対策もきちんとなされていて汎用性があり、精度向上のパラメータも多めにしている。ただ、葉の最大枚数が多いので、ここの点のみ過学習が心配される。
精度向上: max_iterの値を見ると、初期値よりもじっくり学習するパラメータを選択している。
過学習対策: max_bins, tol, l2_regularizationの値が初期値よりも過学習対策に強く汎用性の高いパラメータを選んでそう。
不安要素: max_leaf_nodesが明らかにデータセットを鑑みた場合、多いので過学習である可能性を十分考慮する必要性がありそう。葉の枚数が多いということは、分割基準を細かく設定しているということになる為である。再学習
params = {'tol': 1.0935262659564037e-05, 'learning_rate': 0.21843938001639163, 'max_iter': 832, 'max_leaf_nodes': 343, 'max_bins': 51, 'min_samples_leaf': 36, 'max_depth': 6, 'l2_regularization': 300}prediction = HistGradientBoostingClassifier(**params).fit(X, y).predict(test)PassengerId = pd.read_csv('test.csv')['PassengerId'] HistGradientBoostingSubmission = pd.DataFrame({ 'PassengerId': PassengerId, 'Survived': prediction }) HistGradientBoostingSubmission.to_csv('HistGradientBoosting.csv', index=False)LightGBM
params = {'boosting': 'dart', 'learning_rate': 0.004137394958415602, 'num_iterations': 158, 'num_leaves': 759, 'max_bins': 111, 'min_data_in_leaf': 932, 'bagging_fraction': 0.1684261701192018, 'min_child_weight': 0, 'lambda_l1': 445, 'lambda_l2': 485, 'max_depth': 7, 'drop_rate': 0.0038674989023377714, 'skip_drop': 1.8097533524230508e-05}prediction = lgbm.LGBMClassifier(**params).fit(X, y).predict(test)PassengerId = pd.read_csv('test.csv')['PassengerId'] LightGBMSubmission = pd.DataFrame({ 'PassengerId': PassengerId, 'Survived': prediction }) LightGBMSubmission.to_csv('LightGBM.csv', index=False)Kaggleの本番テストデータで検証
モデル1 モデル2 モデル3 モデル4 モデル5 HGB 0.77033 0.77511 0.74641 0.76555 0.76555 LGBM 0.62679 0.62679 0.62679 0.62679 0.76555
Submission 平均精度 Submission最良精度 Submission最低精度 HGB 0.76459 0.77511 0.74641 LGBM 0.654542 0.76555 0.62679 HistGradientBoostingの方はoptuna検証時の82%の精度から77%の正解率が落ち、多少過学習気味だが高いスコアを出している。逆にLightGBMはoptuna検証時61%だったのに対して、65%と正解率が上昇していて汎用的なモデルが作成できている。ただ、HGBとLGBMを比較すると、12%もの精度の差が出た。
- Scikit-learnの決定木(Decision Tree)などとパラメータが似ているので触りやすい
- 最低限のパラメータで作られていて、過学習に対してのものが多い印象を受ける
- 今回のデータに対しては、Early Stoppingが正しくないと思ったのでしなかったが、その場合LightGBMと比較すると大分遅い
- 思った以上に高精度を叩き出し、ある程度適当なパラメーターでも安定して良いモデルが作成できそう
- 本来LightGBM系譜の純正sklearnということで精度そこそこ速度高速というのでGBT系のベンチマーク(optunaで回してデータに適合する共通のパラメタ探索用)として使えるかも!と思って触ったため、optunaで検証してみたがあてがはずれた
- 低速度、高精度、と意外な結果だが、これだとLightGBMというよりXGBoostやCatBoostと比較検証したほうが良さそう
- 大規模なデータセット(n_samples >= 10,000)に対しての精度と速度の検証をする必要性がありFeature Workとする
- モデル作成時間に関しては、どちらもHGBもLGBMもデータセットが軽く1秒以内に作成できたため非掲載
ArxivのDeep Learning関連論文を被引用数順に1000本並べてみる
Deep Learning関連の最新の論文をピックアップする方法ではなく、抄読会で取り上げるような目的で「のちの研究に大きな影響を与えた論文」を網羅的に探す方法が欲しかったため、論文を被引用数順に並べたリストの作成を試みた。
下記のコードで15000本の論文情報をArxivから取得してSemantic ScholarのAPIで被引用数を取得 (取得日は2019年5月27日)。import arxiv import pandas as pd import requests result = arxiv.query(search_query="all:deep learning") data = pd.DataFrame(columns = ["title","id",'arxiv_url','published']) for i in range(len(result)): id = result[i]['id'].split("/")[-1].split("v")[0] title = result[i]['title'] arxiv_url = result[i]['arxiv_url'] published = result[i]['published'] data_tmp = pd.DataFrame({"title":title,"id":id, "arxiv_url":arxiv_url, "published":published},index=[0]) data = pd.concat([data,data_tmp]).reset_index(drop=True) citation_num_list = [] for i in data["id"]: try: sem = requests.get("https://api.semanticscholar.org/v1/paper/arXiv:"+i).json() citation_num = len(sem["citations"]) except: citation_num = 0 citation_num_list.append(citation_num) data["citation"] = citation_num_list data = data.sort_values(by='citation', ascending=False) data.to_csv("data.csv",index=False)被引用数999以上は999+となって具体的な数値が得られなかったため結局手入力(30ちょいほどあった)。APIが不安定な挙動をするため、被引用数が取得できなかったレコードには0を割り当てており、そのために上位に出てこない論文があるので完璧なリストではない。
実際のところArxivのwebページでDeep Learningで検索すると16000ほど論文が引っかかってくるが、APIで得られたのは15000本であったため、ここでも抜けがあると思われる。そもそも検索単語が"Deep Learning"だけでいいのかという問題もある。
15000本の論文を得たにも関わらず、トップのResNetが被引用数16101なので、これも拾いきれていない論文があることを示唆する結果となった (Arxiv外の論文にも多々引用されているのかもしれないが)。
まずは前回ダウンロードしたファイル(1)を読み込み、とりあえず今回の解析では不要な「transcript_ids」列を削ったデータフレームを作成します。# TPM data after RSEM(count data after mapping) of CCLE(1019 cell lines) df3 = pd.read_table("CCLE_RNAseq_rsem_genes_tpm_20180929.txt") df3 = df3.drop("transcript_ids", axis=1) # remove transcript_ids print(df3.shape) df3.head()# print(df3.shape) (57820, 1020)カラム名に関して、一列目が「gene_id」、いわゆる「Ensembl ID」で、二列目以降のカラム名は「癌細胞の名前+癌種」です。そして二列目以降の数値が遺伝子の発現情報(TPMカウントデータ)となっています。
df0 = pd.DataFrame(columns=["TPM"]) for i in range(10): df0_2 = pd.DataFrame([df3.iloc[:,(i+1)].sum().astype(int)], index= [df3.columns[i+1]], columns=["TPM"]) df0 = pd.concat([df0, df0_2]) df0多少のブレはありますが、およそどの細胞も100万カウントになっていることがわかりますね。
まずは遺伝子発現情報データdf3から細胞名を抽出します。df3_2= pd.DataFrame(df3.columns[1:], columns = ["CCLE_ID"]) df3_2.head()(オプショナル:CCLEのアノテーションファイルから癌細胞の情報を取得)
まず前回ダウンロードしたファイル(2)を読み込みます。このファイルには癌細胞の由来等の情報が記載されています。df_n = pd.read_table("Cell_lines_annotations_20181226.txt") print(df_n.shape) print(df_n.columns) df_n.head()(1461, 33) Index(['CCLE_ID', 'depMapID', 'Name', 'Pathology', 'Site_Primary', 'Site_Subtype1', 'Site_Subtype2', 'Site_Subtype3', 'Histology', 'Hist_Subtype1', 'Hist_Subtype2', 'Hist_Subtype3', 'Gender', 'Life_Stage', 'Age', 'Race', 'Geo_Loc', 'inferred_ethnicity', 'Site_Of_Finding', 'Disease', 'Annotation_Source', 'Original.Source.of.Cell.Line', 'Characteristics', 'Growth.Medium', 'Supplements', 'Freezing.Medium', 'Doubling.Time.from.Vendor', 'Doubling.Time.Calculated.hrs', 'type', 'type_refined', 'PATHOLOGIST_ANNOTATION', 'mutRate', 'tcga_code'], dtype='object')ここには1461細胞、33種類の情報が記載されています。お気づきの方はいると思いますが、細胞の数が1019ではありません。ただしそれは間違っているわけではなく、「遺伝子発現」情報のデータが記載されている癌細胞が1019個だということです。前回のブログで、CCLEのダウンロードページには遺伝子発現情報の他にも、miRNAやRPPAといったデータも記載されていたことを覚えてらっしゃるでしょうか?
df3_3 = pd.merge(df3_2, df_n, on = "CCLE_ID", how ="inner") print(df3_3.shape) # (1019, 33) df3_3.describe(exclude='number').iloc[[0,1],[0,2,4,26,27,28]]データをマージすると、ちゃんと細胞数が1019個になったことが確認できます。ちなみについでに抽出しているのは、今後の解析に使用しそうな情報です。欲しいのは癌種情報なのですが、下記の例を見てもらえればわかるように、それぞれの視点から情報が記載されているため、実は一意に決まるわけではありません。
というか実は当初からそうしてたのですが、今回はちゃんと検証するために一応ファイル(2)の中身も見てみました(^-^)。前回のブログで 「一応」 ファイル(2)をダウンロードした、というのはこういう意味です(つまり結局は使わなかったので・・・)。本番:CCLEの遺伝子発現データから直接癌細胞の情報を取得
df3_2 をよく見ると、'CCLE_ID'は、'細胞名' + ' _ ' + '癌種'という形で文字が結合されていることがわかります。しかし、'癌種'の中身も' _ 'で更に区切られてたりするからややこしい(例:CENTRAL_NERVOUS_SYSTEM)。区切り文字別にしてくれたほうが良いのに。。。ということで、最初の' _ 'だけ区切って後は残すような形で細胞名と癌種名を分けてみます。
# Separation of cell line name and cancer type df3_4 = df3_2.copy() df3_4 = df3_4.iloc[:,0].str.split("_", n=1, expand=True) df3_4 = df3_4.rename(columns={0:"cell_name", 1:"cancer_type"}) print(df3_4.shape) print(df3_4["cancer_type"].nunique()) df3_4.head()# df3_4.shape (1019, 2) # cancer_typeの種類 26ちゃんと細胞名と癌種が分かれましたね。全てを合算すると漏れも無さそうです。これを見るとCCLEでは上位2種類の癌がかなり多いですね。
print(df3_4.iloc[:,1].value_counts().sum()) # 1019 pd.DataFrame(df3_4.iloc[:,1].value_counts())それではこれから癌種分類するための辞書を作ります。Scikit-learnのLabelEncoderを使ってもいいんですが、後のことを考えると辞書対応表が欲しかったので、ゴリゴリつくっちゃいました。ちゃんと26種類の癌にそれぞれ分類番号(0〜25)が付いていることがわかります。
# 癌の種類名 ct_name= list(df3_4["cancer_type"].unique()) # 分類番号 ct_num = list(range(df3_4.nunique()[1])) #辞書の作成(making dictionary) dic = dict(zip(ct_name, ct_num)) dic# 癌分類対応表 {'PROSTATE': 0, 'STOMACH': 1, 'URINARY_TRACT': 2, 'CENTRAL_NERVOUS_SYSTEM': 3, 'OVARY': 4, 'HAEMATOPOIETIC_AND_LYMPHOID_TISSUE': 5, 'KIDNEY': 6, 'THYROID': 7, 'SKIN': 8, 'SOFT_TISSUE': 9, 'SALIVARY_GLAND': 10, 'LUNG': 11, 'BONE': 12, 'PLEURA': 13, 'ENDOMETRIUM': 14, 'PANCREAS': 15, 'BREAST': 16, 'UPPER_AERODIGESTIVE_TRACT': 17, 'LARGE_INTESTINE': 18, 'AUTONOMIC_GANGLIA': 19, 'OESOPHAGUS': 20, 'FIBROBLAST': 21, 'CERVIX': 22, 'LIVER': 23, 'BILIARY_TRACT': 24, 'SMALL_INTESTINE': 25}続いて、上記辞書を用いて1019個の癌細胞を癌細胞ごとにラベル分けしたデータを作成します。最初の10行のデータを見ると、辞書で指定したように、それぞれの癌細胞がcategoryの列で癌種ごとに数値で分類されていることがわかりますね。
df3_5 = df3_4.copy() df3_5["category"] = df3_5.iloc[:,1] df3_5["category"] = df3_5["category"].replace(dic) df3_5 = pd.concat([df3_2, df3_5], axis =1) print(df3_5.shape) # (1019, 4) df3_5.to_csv("cancer_type_20190527.csv") df3_5.head(10)とりあえずデータフレームが増えてごちゃごちゃしてきたので、「cancer_type_20190527.csv」という形で保存しちゃいます。jupyter notebookも重くなってきたのでちょっと仕切りなおしです。
— りめん⎷aおかもと (@wixossccc) May 26, 2019見ての通り遊戯王のカードを貼り合わせて任意の文字列を生成しています。
そこで思いついたのが、N-gramを利用する方法です。まずこのように、部分文字列のデータをハッシュで蓄えておきます。# word_hash……部分文字列一覧。word_hash[部分文字列の長さ][部分文字列]={対象となるカードの番号一覧} word_hash: Dict[int, Dict[str, Set[int]]] = {} for name_index, name in enumerate(name_list): name_len = len(name) for begin_index in range(0, name_len): for end_index in range(begin_index + 1, name_len + 1): # begin_indexからend_indexまでの範囲で単語(name)を切り取ったのがslice_word slice_len = end_index - begin_index slice_word = name[begin_index:end_index] # ハッシュ(word_hash)に部分文字列(slice_word)を登録する if slice_len not in word_hash: word_hash[slice_len] = {} if slice_word not in word_hash[slice_len]: word_hash[slice_len][slice_word] = set() word_hash[slice_len][slice_word].add(name_index) # 何文字までの部分文字列が取れたかを算出する max_len = max(word_hash.keys()) min_len = min(word_hash.keys()) print(f'部分長:{min_len}-{max_len}')次に、対象文字列を先頭から見ていって、なるべく長い文字列がヒットするように検索します。
(以下のコードでは実装をサボったので、MIN_WORD_LENが大きすぎるなどして探索に失敗すると無限ループになります)MAX_COUNT = 5 # 部分文字列に対する候補カード名を表示する最大件数 MIN_WORD_LEN = 1 # 部分文字列の最小長さ query_text = 'ホワイト・シチューをライスニカケる者を抹殺するエルフの剣士' # 合成対象の文字列 query_text_len = len(query_text) p = 0 while p < query_text_len: for q in range(max_len, min_len - 1, -1): # pからqまでの範囲で単語(query_text)を切り取ったのがsliced_query_text sliced_query_text = query_text[p:p+q] sliced_query_text_len = len(sliced_query_text) # 枝刈り if sliced_query_text_len < MIN_WORD_LEN: continue if sliced_query_text_len not in word_hash: continue if sliced_query_text not in word_hash[sliced_query_text_len]: continue # ヒットしたので候補カード名一覧をMAX_COUNT件まで表示 print(f'【{sliced_query_text}】:') count = 0 for name_index in word_hash[sliced_query_text_len][sliced_query_text]: print(f' {name_list[name_index]}') count += 1 if count >= MAX_COUNT: break p += sliced_query_text_len探索例
【ホワイト・】: ホワイト・ドルフィン ホワイト・ホーンズ・ドラゴン 【シ】: 闇の住人シャドウキラー キャトルミューティレーション 魔轟神獣ガナシア スカル・ビショップ チューンド・マジシャン 【チュー】: チューナーズ・ハイ チューン・ウォリアー パワード・チューナー ガーディアン・スタチュー レベル・リチューナー 【を】: 不幸を告げる黒猫 屍を貪る竜 弓を引くマーメイド 裁きを下す女帝 7つの武器を持つハンター 【ライス】: ガーディアン・トライス 閃光の双剣―トライス 【ニカ】: フレムベルグルニカ ドリル・バーニカル ボタニカル・ライオ 【ケ】: デビル・クラーケン ロケット・ジャンパー 剣闘獣トラケス ケルドウ モルティング・エスケープ 【る者】: 黒羽を狩る者 命を食する者 炎を支配する者 炎を操る者 魂を狩る者 【を】: 不幸を告げる黒猫 屍を貪る竜 弓を引くマーメイド 裁きを下す女帝 7つの武器を持つハンター 【抹殺】: 無情の抹殺 抹殺の使徒 戦士抹殺 【す】: 団結するレジスタンス 盲信するゴブリン 暴走する魔力 鏡鳴する武神 裁きを下す女帝 【るエルフの剣士】: 翻弄するエルフの剣士ここから好きな文字列を選んでコラ画像を作ればいいです。例えば、
ホワイト・シチューをライスニカケる者を抹殺するエルフの剣士 [ホワイト・]ホーンズ・ドラゴン 闇の住人[シ]ャドウキラー [チュー]ン・ウォリアー 屍[を]貪る竜 閃光の双剣―ト[ライス] フレムベルグル[ニカ] デビル・クラー[ケ]ン 魂を狩[る者] 7つの武器[を]持つハンター [抹殺]の使徒 鏡鳴[す]る武神 翻弄す[るエルフの剣士]といったふうに作成できます。他にもいろいろ作ってみましょう。
精神を刻む者ジェイス =[精神]統一 翼[を]織りなす者 破邪の[刻]印 龍脈に棲[む者] [ジ]ュラック・メテオ バード・フ[ェイス] ミミミンミミミンウーサミン =暗黒の[ミミ]ックLV1 [ミ]イラの呼び声 サモ[ン]オーバー 暗黒の[ミミ]ックLV3 リ[ミ]ッター・ブレイク ドラゴ[ンウ]ィッチ-ドラゴンの守護者- ラヴァルバ[ー]ナー [サ]イコ・デビル アロマージジャス[ミン] メタルギアソリッドピースウォーカー =[メタル]デビルゾア フェニックス・[ギア]・フリード E・HERO[ソリッド]マン 森羅の実張り [ピース] [ウォー]ター・ドラゴン-クラスター サモンブレー[カー]注意
- 言うまでもありませんが、ミリシタやシャニマスなどのカード名でも同様にコラ画像の種に使えます
- 暇な人は画像コラを作成する部分も自動作成してみると楽しいのではないでしょうか
pip install pandas fiona shapely pyproj rtree descartes pip install git+git://github.com/geopandas/geopandas.git手っ取り早く使いたいときは...
GoogleDriveにパスを通すことが億劫でさえなければ、GoogleColaboratryを使うと簡単です。参考までにコード を共有します。
import location location.start_updates() # GPSデータ更新を開始 gps_data=location.get_location() # GPSデータを取得する location.stop_updates()# GPSデータ更新を終了 print(gps_data['latitude']) print(gps_data['longitude'])結果
PySnooper の文字列を取得
今回は少し前にバズった PySnooper で標準出力ではなく、Python としての文字列として取得する方法をご紹介します。はじめに
- Python: 3.7.2
- PySnooper: 0.0.39
- Python 構文が分かる人
- 手っ取り早く PySnooper の文字列を Slack 等に送りつけたい人
- New Relic 等がどうしても使えない環境でボトルネックをチェックしたい人
正直、記事にするか悩むレベルで簡単です。( ドキュメントなかったのでとりあえず記事にしましたが… )
class MyWritableStream(pysnooper.utils.WritableStream): def __init__(self, *args, **kwargs): super().__init__(*args, **kwargs) self.dump_message = '' def write(self, s: str) -> None: self.dump_message += sはい、ほぼこれだけです。
ws = MyWritableStream() with pysnooper.snoop(output=ws): num1 = 1 num2 = 2 result = num1 + num2 print(ws.dump_message) # ws.dump_message で文字列として取得できるあなたのデバッグしたいコードを
with pysnooper.snoop(output=ws):
例ではnum1 = 1
からresult = num1 + num2
部分を Slack なりメールなり、ログファイルなりにすればいいと思います。解説のしようがないレベルであれなので必要なことだけ列挙しておきます。
- pysnooper.utils.WritableStream を継承したクラスを作って write メソッドオーバーライドする
- with 構文で snoop する際に引数に予め初期化しておいた WritableStream インスタンスを渡す
理由としては WritableStream の初期化が問題です。
( デコレーターで試してませんが多分だめだと思います )あとがき
そのうち PySnooper もどんどん整備されていけばこういった記事がなくても良くなると思います。
ですが、WritableStream について触れている文献も探すの面倒だったりしたのでやっちゃいました。
array([[ 2, 4, 6, 8, 10, 12],
[ 4, 6, 8, 10, 12, 14],
[ 6, 8, 10, 12, 14, 16]])np.sum(C,axis=2)
array([[21, 27, 33],
[21, 27, 33]])になる
Revit Api pyrevitでEnumを使う
sample.pyfrom rpw import DB from rpw.utils.dotnet import Enum for bip in Enum.GetValues(DB.BuiltInParameter): print bip for bip in Enum.GetNames(DB.BuiltInParameter): print bip print type(bip) for pt in Enum.GetValues(DB.ParameterType): print pt print type(pt)BuiltInParameterをrpwを使ってPythonで書くときにEnumをどこからインポートしたら良いか詰まりました。
茶コーダーへの道 #3
Atcoder Beginner Contest 127
先日のAtcoder Beginner Contest 127ですが,僕はA問題,B問題の2問の正解でした.
abc127_a.pya,b=map(int,input().split()) if a<=5: print(0) elif 6<=a and a<=12: print(b//2) else: print(b)一行で書いている人,何者・・・
abc127_b.pyr,d,x=map(int,input().split()) for i in range(10): x=r*x-d print(x)A問題より簡単だった?
ということで解説はC++で書いてるので,僕はPythonで書いてみた.abc127_c.pyN,M=map(int,input().split()) l=[list(map(int,input().split())) for i in range(M)] maxL=1 minR=N for j in range(M): maxL=max(maxL,l[j][0]) minR=min(minR,l[j][1]) ans=minR-maxL+1 ans=max(ans,0) print(ans)AC!素直に嬉しい.
pip install tensorflow pip install tensorflow-gpu //GPUを使う場合 pip install keras一応これでkerasを使うことができる。
- pyenv
- virtualenv
- venv
- anaconda
- https://www.anaconda.com/distribution/自分の環境に合わせてダウンロードするanacondaを選ぼう。
$ wget https://repo.anaconda.com/archive/Anaconda3-2019.03-Linux-x86_64.sh
なおこのコマンドはPython3.7、Linux 64bit版のインストーラーがダウンロードされる。
$ bash Anaconda3-2019.03-Linux-x86_64.sh
$ conda list
$ conda install kerasこのコマンドはkerasがインストールされる。"keras"の部分をインストールしたいパッケージに変えれば、そのパッケージがインストールされる。
$ conda create -n hoge python=3.7このコマンドは"hoge"という名前の仮想環境をPython3.7で構築する。
$ conda activate hoge
$ conda deactivate
$ conda env list仮想環境を削除
$ conda env remove -n hogehogeという仮想環境が削除される。
$ conda create -n keras_env python=3.7 $ conda activate keras_env1行目でkeras_envという仮想環境を作り、2行目でkeras_envに入る。
$ conda install tensorflowGPUを使いたい人は
$ conda install tensorflow-gpuそして、kerasをインストール。
$ conda install keras動作確認的な
jupyter notebookをいい感じに使えるようにしたい。
Optuna と Chainer で深層学習のハイパーパラメータ自動最適化
Optuna は、オープンソースのハイパーパラメータ自動最適化ツールです。この記事では、Optuna と Chainer を用いて、実際に深層学習(ディープラーニング)のハイパーパラメータ最適化を行う方法を説明します。Optuna の examples にはさまざまなフレームワークでの例が載っていますが、ドキュメントとして説明はされていないようなので、私なりにアレンジを加えたものを紹介します。
- ハイパーパラメータとは何か?
- Optuna でシンプルな最適化
- Optuna + Chainer で深層学習のハイパーパラメータ最適化
- Chainer などの深層学習フレームワークに慣れ親しんでいる方
- Optuna のチュートリアルは触ったものの、そこから深層学習のハイパーパラメータ自動最適化に活用する方法がわからない方
反対に、対象と しない 読者は以下です:
- Optuna のチュートリアル をまだやっていない方 → まずはそちらやることをオススメします。
- Optuna の examples を読んで理解できる方 → それらを超える内容はほぼありません。
- 機械学習の基礎的な概念・Python の基本的な文法を知らない方 → この記事では説明しないので、ほかで習得してから読んでください。
また、この記事で解説するコードの完全なものは GitHub のリポジトリ にあります。
深層学習の場合、ハイパーパラメータとは例えば層の数や活性化関数の種類など、学習の過程で変化しないパラメータを指します。実際に学習を行うときはそれらを決めた上で、それぞれの層が持っている重みやバイアスなどのパラメータを最適化することで学習を行うわけですが、層の数や活性化関数の種類は学習の過程で最適化されるわけではなく、あらかじめ人間が手で与える必要がありました。したがって、学習の過程で最適化されるパラメータ(層が持っている重みやバイアス)と区別するために、層の数や活性化関数の種類のことを ハイパーパラメータ と呼びます。以下に、深層学習におけるパラメータの例とハイパーパラメータの例を示します。
- 層の重み
- 層のバイアス
- 層の数
- 活性化関数の種類(ReLU や Sigmoid など)
- 最適化方法の種類(Adam や SGD など)
- 最適化方法のパラメータ(学習率など)
深層学習では誤差逆伝播を用いて勾配(loss のパラメータによる微分)を計算しパラメータのアップデートを行います。対してハイパーパラメータでは層の数や活性化関数の種類など、それを変えるとモデルの性質がドラスティックに変わるため微分が簡単に行えなそうなものが多いです。そういった意味でも、これらのハイパーパラメータは学習時に最適化することが難しく、学習を始める前に決めうちにならざるを得ないという背景もあります。
人手によるハイパーパラメータ更新の例を以下に示します。例ではふたつの学習を同時に走らせていますが、学習が終わるごとに人手によるチェックが入るため、ハイパーパラメータを試せる数に限りがあり、またスケールもしません。例えば 100 個 GPU を用意して 100 セットのハイパーパラメータで同時に学習させることを考えてください。それらの学習が終わった際に、次にみるべきハイパーパラメータを即座に判断できるでしょうか?
一方で、Optuna などのハイパーパラメータ自動最適化ツールを使った場合の例をいかに示します。人手が入る時間は限られているため、学習が効率的に回せていることが見て取れます。また、この方法であれば、 100 セットのハイパーパラメータで同時に学習させたとしても、学習回数はそれに応じてスケールしていきます。詳しくは後で述べますが、結果を評価する際も、スジのよいハイパーパラメータだけを見ればよいため、評価を行うコストも実はそこまで高くありません。
とはいえ、人手では試せる回数も限られたものになりますので、ハイパーパラメータ自動最適化ツールより性能がよいハイパーパラメータを見つけられたとしてもそれは「たまたま」かもしれません。実務上ではこういった「たまたま」に頼るよりは、試行回数をできるだけ増やしてなるべくうまくいく確率を統計的に増やしていくことが求められると思います。また、近年ではハイパーパラメータ自動最適化を含む領域として AutoML という対象が盛んに研究されており、こういった方向性は今後より一層強まっていくと予想できます。
Optuna でシンプルな最適化
ではいよいよ Optuna で最適化を行っていきましょう。いきなり深層学習の最適化を行ってもわかりにくいので、まずはシンプルな例からいきましょう。
問題として、サインウェーブのフィッティングを考えます。範囲 $[0, 2 \pi]$ をとる $x$ に対して、
y = \sin xである $y$ を予測するモデルを、まずは多項式で立てます。
この際のハイパーパラメータとしては、多項式の次数を選びます。次数が 2 だったら 2 次関数で $\sin$ をフィッティングするということですね。
- データを作る
- ハイパーパラメータ最適化(
)のための設定をする- 実際に最適化計算を行う
- もっともよかった結果を可視化する
from pathlib import Path import optuna STUDY_NAME = 'poly' N_TRIALS = 10 MODEL_DIRECTORY = Path('models/poly') def main(): # Generate dataset prepare_dataset() # Prepare study if not MODEL_DIRECTORY.exists(): MODEL_DIRECTORY.mkdir(parents=True) study = optuna.create_study( study_name=STUDY_NAME, storage=f"sqlite:///{STUDY_NAME}.db", load_if_exists=True) # Optimize study.optimize(objective, n_trials=N_TRIALS) # Visualize the best result print('=== Best Trial ===') print(study.best_trial) evaluate_results(study.best_trial) if __name__ == '__main__': main()
というのが今考えているタスクに対するハイパーパラメータ自動最適化の計算ワンセットを指していて、ハイパーパラメータをひとつセットして学習を 1 回行うことはtrial
ではデータを作りましょう。 $x$ として $[0, 2 \pi]$ の範囲をとる一様乱数を作り、それに $\sin$ を作用させます。また、機械学習で使うデータでは
(サンプルサイズ, 特徴量次元)
の 2 次元配列になっていることが多いので、今回は特徴量次元を 1 として、(DATA_SIZE, 1)
を作ります。import numpy as np DATA_SIZE = 1000 DATASET_DIRECTORY = Path(f"./data/dataset_{DATA_SIZE}") def generate_data(size=1000): """Generate training data. Args: length: int The sample size of the data. Returns: x_train: numpy.ndarray The input data for training. y_train: numpy.ndarray The output data for training. x_valid: numpy.ndarray The input data for validation. y_valid: numpy.ndarray The output data for validation. """ x = np.random.rand(size, 1).astype(np.float32) * 2 * np.pi y = np.sin(x) n_train = int(size * 0.8) return x[:n_train], y[:n_train], x[n_train:], y[n_train:]最後のところでは、データを train dataset と validation dataset に 8:2 の割合で分割しています。最適化計算のたびにデータを作るとデータが計算に時間がかかるばかりかデータも変わってしまうので、データがまだ作られていなかったらデータを作って保存する関数も別途作っておきます。
def prepare_dataset(): """Prepare dataset for optimization.""" if not DATASET_DIRECTORY.exists(): DATASET_DIRECTORY.mkdir(parents=True) x_train, y_train, x_valid, y_valid = generate_data(DATA_SIZE) np.save(DATASET_DIRECTORY / 'x_train.npy', x_train) np.save(DATASET_DIRECTORY / 'y_train.npy', y_train) np.save(DATASET_DIRECTORY / 'x_valid.npy', x_valid) np.save(DATASET_DIRECTORY / 'y_valid.npy', y_valid)目的関数
次はいよいよ Optuna に直接関係する部分の実装です。Optuna では最小化したい目的関数(Objective function)を定義し、ハイパーパラメータを変化させながら目的関数の値を評価することで、ハイパーパラメータ自動最適化を行います。
import pickle from sklearn.linear_model import Ridge from sklearn.preprocessing import PolynomialFeatures from sklearn.pipeline import make_pipeline def objective(trial): """Objective function to make optimization for Optuna. Args: trial: optuna.trial.Trial Returns: loss: float Loss value for the trial """ # Suggest hyperparameters polynomial_degree = trial.suggest_int('polynomial_degree', 1, 10) print('--') print(f"Trial: {trial.number}") print('Current hyperparameters:') print(f" Polynomial degree: {polynomial_degree}") print('--') # Generate the model model = make_pipeline(PolynomialFeatures(polynomial_degree), Ridge()) # Load dataset x_train = np.load(DATASET_DIRECTORY / 'x_train.npy') y_train = np.load(DATASET_DIRECTORY / 'y_train.npy') x_valid = np.load(DATASET_DIRECTORY / 'x_valid.npy') y_valid = np.load(DATASET_DIRECTORY / 'y_valid.npy') # Train model.fit(x_train, y_train) # Save model with open(MODEL_DIRECTORY / f"model_{trial.number}.pickle", 'wb') as f: pickle.dump(model, f) # Evaluate loss loss = np.mean((model.predict(x_valid) - y_valid)**2) return lossちょっと関数としては長いですが、やっていることはそんなに多くありません。順番に説明していきましょう。
クラスのオブジェクトです。Optuna の最適化プロセスでは、このTrial
関数に渡して評価して……というのを繰り返します。つまりこの引数は Optuna によって自動で与えられるため、ユーザ自らこのオブジェクトを作ってobjective
# Suggest hyperparameters polynomial_degree = trial.suggest_int('polynomial_degree', 1, 10)の部分でしょう。ここでひとつの
を行うためのハイパーパラメータを 1 セット(ここではpolynomial_degree
はハイパーパラメータのとりうる最小値と最大値です。つまり、1 次関数 〜 10 次関数の間でフィッティングを試みようとしているということです。他の部分はデータを読み込んだり、
を作成してデータにフィッティングし保存したりしている部分です。最後に# Evaluate loss loss = np.mean((model.predict(x_valid) - y_valid)**2) return lossの部分ですが、validation dataset に対してモデルによる推定を行い、正解との平均二乗誤差(
しています。Optuna での最適化に使う目的関数の返り値は、必ず最小化したい値でなければいけません。結果の可視化
に対応するモデルのデータを読み込んで、validation dataset に対する結果をプロットするものです。import matplotlib.pyplot as plt def evaluate_results(trial): """Evaluate the optimization results. Args: study: optuna.trial.Trial Returns: None """ # Load model trial_number = trial.number with open( MODEL_DIRECTORY / f"model_{trial_number}.pickle", 'rb') as f: model = pickle.load(f) # Load data x_valid = np.load(DATASET_DIRECTORY / 'x_valid.npy') y_valid = np.load(DATASET_DIRECTORY / 'y_valid.npy') # Plot plt.plot(x_valid, y_valid, '.', label='answer') plt.plot(x_valid, model.predict(x_valid), '.', label='prediction') plt.legend() plt.show()main 関数ふたたび
関数の部分を示します。def main(): # Generate dataset prepare_dataset() # Prepare study if not MODEL_DIRECTORY.exists(): MODEL_DIRECTORY.mkdir(parents=True) study = optuna.create_study( study_name=STUDY_NAME, storage=f"sqlite:///{STUDY_NAME}.db", load_if_exists=True) # Optimize study.optimize(objective, n_trials=N_TRIALS) # Visualize the best result print('=== Best Trial ===') print(study.best_trial) evaluate_results(study.best_trial)Optuna を直接使っている部分は
study = optuna.create_study
の作成部分ですが、study = optuna.create_study( study_name=STUDY_NAME, storage=f"sqlite:///{STUDY_NAME}.db", load_if_exists=True)このようになっています。
のデータをどこに保存するかを指定しています。ここでは SQLite を使っているため、インストールしてデータベースサーバを立ち上げた上で実行する必要があります。また、load_if_exists=True
としているので、すでに DB が存在していた場合はそのデータを読み込んで、最適化を再開します。もし SQLite 関連でうまくいかない場合は、該当する場所を
study = optuna.create_study( study_name=STUDY_NAME)のように書き換えてください。データが保存されませんが、SQLite のインストールなどは不要になります。
study.optimize(objective, n_trials=N_TRIALS)です。目的関数として上で定義した
全体のコードは こちら にありますので、
git clone
などでダウンロードした上で、ターミナル上で$ python3 poly.py
に保存されながら以下のような結果がターミナルに表示されるはずです。[I 2019-05-27 04:41:29,531] A new study created with name: poly -- Trial: 0 Current hyperparameters: Polynomial degree: 8 -- [I 2019-05-27 04:41:29,654] Finished trial#0 resulted in value: 0.0005262039485387504. Current best value is 0.0005262039485387504 with parameters: {'polynomial_degree': 8}. -- Trial: 1 Current hyperparameters: Polynomial degree: 2 -- [I 2019-05-27 04:41:29,754] Finished trial#1 resulted in value: 0.19891643524169922. Current best value is 0.0005262039485387504 with parameters: {'polynomial_degree': 8}. ... [I 2019-05-27 04:41:30,626] Finished trial#9 resulted in value: 0.004659125581383705. Current best value is 5.815048280055635e-05 with parameters: {'polynomial_degree': 5}. === Best Trial === FrozenTrial(number=2, state=<TrialState.COMPLETE: 1>, value=5.815048280055635e-05, datetime_start=datetime.datetime(2019, 5, 27, 4, 41, 29, 755017), datetime_complete=datetime.datetime(2019, 5, 27, 4, 41, 29, 843021), params={'polynomial_degree': 5}, distributions={'polynomial_degree': IntUniformDistribution(low=1, high=10)}, user_attrs={}, system_attrs={'_number': 2}, intermediate_values={}, params_in_internal_repr={'polynomial_degree': 5.0}, trial_id=3)最適化が終わったら、試した中でもっともスコアがよかった(
)ときのハイパーパラメータが表示されます。試されたハイパーパラメータとその結果はすべてデータベースに保存されているため、スコアの高い順に n 個データをとってくるなども簡単にでき、結果として人手によるチェックのコストを下げてくれています。私が実行したところによると、'polynomial_degree': 5
のときに validation dataset に対するloss
で最小になったようです。また、それを用いた結果の可視化として下のようなグラフも表示されるはずです。Optuna + Chainer で深層学習のハイパーパラメータ最適化
では Chainer で多層パーセプトロン(MLP)を作って、そのハイパーパラメータを Optuna で自動最適化してみましょう。タスクは先ほどと同様、$\sin$ のフィッティングとします。また、ハイパーパラメータとしては:
- 層の数
- 層を構成するユニットの個数
- 活性化関数
関数まわりをまず示します。import optuna STUDY_NAME = 'mlp' N_TRIALS = 100 PRUNER_INTERVAL = 100 def main(): # Generate dataset prepare_dataset() # Prepare study study = optuna.create_study( study_name=STUDY_NAME, storage=f"sqlite:///{STUDY_NAME}.db", load_if_exists=True, pruner=optuna.pruners.MedianPruner()) # Optimize study.optimize(objective, n_trials=N_TRIALS) # Visualize the best result print('=== Best Trial ===') print(study.best_trial) evaluate_results(study.best_trial) if __name__ == '__main__': main()ここで重要な変更はひとつだけで、
study = optuna.create_study( study_name=STUDY_NAME, storage=f"sqlite:///{STUDY_NAME}.db", load_if_exists=True, pruner=optuna.pruners.MedianPruner())のところです。新しい引数として
を与えていますが、これは pruning (枝刈り)と呼ばれる、途中で明らかにダメそうな学習を早めに打ち切る機能です。人手でハイパーパラメータチューニングをするときも、10 epoch くらい走らせてみてダメそうだったら学習を止めて別のハイパーパラメータを試しますよね。それを機械がやってくれるということです。ただし、 pruning を行うには学習器自体にも設定が必要で、それは後述します。目的関数
from pathlib import Path import chainer as ch import optuna PRUNER_INTERVAL = 100 EPOCH = 1000 DATA_SIZE = 5000 BATCH_SIZE = 100 GPU_ID = -1 # Set value >= 0 to use GPU (-1: CPU mode) DATASET_DIRECTORY = Path(f"./data/dataset_{DATA_SIZE}") MODEL_DIRECTORY = Path('models/mlp') def objective(trial): """Objective function to make optimization for Optuna. Args: trial: optuna.trial.Trial Returns: loss: float Loss value for the trial """ # Generate model classifier = generate_model(trial) # Create dataset x_train = np.load(DATASET_DIRECTORY / 'x_train.npy') y_train = np.load(DATASET_DIRECTORY / 'y_train.npy') x_valid = np.load(DATASET_DIRECTORY / 'x_valid.npy') y_valid = np.load(DATASET_DIRECTORY / 'y_valid.npy') # Prepare training train_iter = ch.iterators.SerialIterator( ch.datasets.TupleDataset(x_train, y_train), batch_size=BATCH_SIZE, shuffle=True) valid_iter = ch.iterators.SerialIterator( ch.datasets.TupleDataset(x_valid, y_valid), batch_size=BATCH_SIZE, shuffle=False, repeat=False) optimizer = ch.optimizers.Adam() optimizer.setup(classifier) updater = ch.training.StandardUpdater(train_iter, optimizer, device=GPU_ID) stop_trigger = ch.training.triggers.EarlyStoppingTrigger( monitor='validation/main/loss', check_trigger=(100, 'epoch'), max_trigger=(EPOCH, 'epoch')) trainer = ch.training.Trainer( updater, stop_trigger, out=MODEL_DIRECTORY/f"model_{trial.number}") log_report_extension = ch.training.extensions.LogReport( trigger=(100, 'epoch'), log_name=None) trainer.extend(log_report_extension) trainer.extend(ch.training.extensions.PrintReport( ['epoch', 'main/loss', 'validation/main/loss'])) trainer.extend(ch.training.extensions.snapshot( filename='snapshot_epoch_{.updater.epoch}')) trainer.extend(ch.training.extensions.Evaluator(valid_iter, classifier)) trainer.extend(ch.training.extensions.ProgressBar()) trainer.extend( optuna.integration.ChainerPruningExtension( trial, 'validation/main/loss', (PRUNER_INTERVAL, 'epoch'))) # Train trainer.run() loss = log_report_extension.log[-1]['validation/main/loss'] return loss処理は長くなっていますが、やっていることは多項式のときとそう変わりません。Chainer に慣れ親しんでいる方なら見慣れた処理が多いと思います(Updater や Trainer を使わずに Chainer をやっている方は、もったいないのでこのタイミングでそれらの使い方をおさえておきましょう)。ただ唯一
trainer.extend( optuna.integration.ChainerPruningExtension( trial, 'validation/main/loss', (PRUNER_INTERVAL, 'epoch')))のところは Optuna に由来する部分で、これが例の pruning のための設定その 2 です。いま
としているので、 100 epoch おきに学習をとめるかどうか判断するという設定になっています。別途stop_trigger
として early stopping の設定もしていますので、
- 望みのなさそうなハイパーパラメータでの学習は早めに止める(pruning)
- 望みがありそうなハイパーパラメータでの学習でも、学習が停滞したら止める(early stopping)
の 2 重の構えになっています。したがって、最大のエポック数
EPOCH = 5000
としていますが、私がためした限りでは 5000 epoch フルに学習が走った trial はありませんでした。適切なタイミングで学習を(自動的に)止めるのも、より多くのハイパーパラメータを試すための重要なファクターになっています。モデルの生成
# Generate model classifier = generate_model(trial)と、別の関数に置き換えてあっさり終わってしまっていました。実はこの部分こそが Optuna で深層学習をやるための重要な部分です。ハイパーパラメータ自動最適化ツールで深層学習を行いたい場合、もっとも重要なことは
- モデル生成をできるだけ柔軟にできるようにする
def generate_model(trial): """Generate MLP model. Args: trial: optuna.trial.Trial Returns: classifier: chainer.links.Classifier """ # Suggest hyperparameters layer_number = trial.suggest_int('layer_number', 2, 5) activation_name = trial.suggest_categorical( 'activation_name', ['relu', 'sigmoid']) unit_numbers = [ trial.suggest_int(f"unit_number_layer{i}", 10, 100) for i in range(layer_number - 1)] + [1] dropout_ratio = trial.suggest_uniform('dropout_ratio', 0.0, 0.2) print('--') print(f"Trial: {trial.number}") print('Current hyperparameters:') print(f" The number of layers: {layer_number}") print(f" Activation function: {activation_name}") print(f" The number of units for each layer: {unit_numbers}") print(f" The ratio for dropout: {dropout_ratio}") print('--') # Generate the model model = MLP( unit_numbers, activation_name=activation_name, dropout_ratio=dropout_ratio) classifier = ch.links.Classifier( model, lossfun=ch.functions.mean_squared_error) classifier.compute_accuracy = False return classifierモデル生成部分はこのようになっており、前半部分は
(層の数)によって配列の長さ(=ハイパーパラメータの個数)が動的に変わります。こういった、ハイパーパラメータの数が動的に変化するような問題に対しても最適化を行える柔軟性が Optuna の長所のひとつだと思います1。また、今回は MLP の出力(y
)の特徴量次元は 1 なので、unit_numbers
の末尾に 1 を付け足しています。このようにして作成されたハイパーパラメータは、たとえばCurrent hyperparameters: The number of layers: 4 Activation function: sigmoid The number of units for each layer: [36, 99, 87, 1] The ratio for dropout: 0.6906857740018953のようになっています。
class MLP(ch.ChainList): """Multi Layer Perceptron.""" def __init__( self, unit_numbers, activation_name, dropout_ratio): """Initialize MLP object. Args: unit_numbers: list of int List of the number of units for each layer. activation_name: str The name of the activation function applied to layers except for the last one (The activation of the last layer is always identity). dropout_ratio: float The ratio of dropout. Dropout is applied to all layers. Returns: None """ super().__init__(*[ ch.links.Linear(unit_number) for unit_number in unit_numbers]) self.activations = [ self._create_activation_function(activation_name) for _ in self[:-1]] \ + [ch.functions.identity] # The last one is identity self.dropout_ratio = dropout_ratio def _create_activation_function(self, activation_name): """Create activation function. Args: activation_name: str The name of the activation function. Returns: activation_function: chainer.FunctionNode Chainer FunctionNode object corresponding to the input name. """ if activation_name == 'relu': return ch.functions.relu elif activation_name == 'sigmoid': return ch.functions.sigmoid elif activation_name == 'identity': return ch.functions.identity else: raise ValueError(f"Unknown function name {activation_name}") def __call__(self, x): """Execute the NN's forward computation. Args: x: numpy.ndarray or cupy.ndarray Input of the NN. Returns: y: numpy.ndarray or cupy.ndarray Output of the NN. """ h = x for i, link in enumerate(self): h = link(h) if i + 1 != len(self): h = ch.functions.dropout(h, ratio=self.dropout_ratio) h = self.activations[i](h) return h
は層の数がわかっていなくても定義が書けるので、このような場合には重宝します。重要なメソッドをひとつひとつ見ていきます。まずはオブジェクトの初期化部分ですが、def __init__( self, unit_numbers, activation_name, dropout_ratio): """Initialize MLP object. Args: unit_numbers: list of int List of the number of units for each layer. activation_name: str The name of the activation function applied to layers except for the last one (The activation of the last layer is always identity). dropout_ratio: float The ratio of dropout. Dropout is applied to all layers. Returns: None """ super().__init__(*[ ch.links.Linear(unit_number) for unit_number in unit_numbers]) self.activations = [ self._create_activation_function(activation_name) for _ in self[:-1]] \ + [ch.functions.identity] # The last one is identity self.dropout_ratio = dropout_ratioのようになっています。
をとるようにしています。ネットワークの foward 部分は、以下のようになっています。こちらでは層の数だけループを回して、線形変換とドロップアウト、活性化関数の適用を行っています。ただし、出力層にはドロップアウトを適用しないようにしています。
def __call__(self, x): """Execute the NN's forward computation. Args: x: numpy.ndarray or cupy.ndarray Input of the NN. Returns: y: numpy.ndarray or cupy.ndarray Output of the NN. """ h = x for i, link in enumerate(self): h = link(h) if i + 1 != len(self): h = ch.functions.dropout(h, ratio=self.dropout_ratio) h = self.activations[i](h) return h結果の可視化
に対応するモデルをロードして推測させ、答えと比較しています。def evaluate_results(trial): """Evaluate the optimization results. Args: study: optuna.trial.Trial Returns: None """ # Load model trial_number = trial.number unit_numbers = [] for i in range(100): param_key = f"unit_number_layer{i}" if param_key not in trial.params: break unit_numbers.append(trial.params[param_key]) model = MLP( unit_numbers + [1], trial.params['activation_name'], trial.params['dropout_ratio']) snapshots = glob.glob(str(MODEL_DIRECTORY / f"model_{trial_number}" / '*')) latest_snapshot = max( snapshots, key=os.path.getctime) # The latest snapshot of the trial print(f"Loading: {latest_snapshot}") ch.serializers.load_npz( latest_snapshot, model, path='updater/model:main/predictor/') # Load data x_valid = np.load(DATASET_DIRECTORY / 'x_valid.npy') y_valid = np.load(DATASET_DIRECTORY / 'y_valid.npy') # Plot plt.plot(x_valid, y_valid, '.', label='answer') with ch.using_config('train', False): predict = model(x_valid).data plt.plot(x_valid, predict, '.', label='prediction') plt.legend() plt.show()まず予備知識として、
は例えば{'activation_name': 'sigmoid', 'dropout_ratio': 0.1948279849856978, 'layer_number': 5, 'unit_number_layer0': 77, 'unit_number_layer1': 56, 'unit_number_layer2': 51, 'unit_number_layer3': 80}
のような辞書型のオブジェクトとしてその trial のハイパーパラメータを保持しています。したがって、これらのハイパーパラメータを使ってモデルを再構成し、(ハイパーでない)パラメータを読み込めばいいわけです。パラメータの読み込みでは、その trial のもっとも新しい snapshot を見つけてきてそれを読み込んでいます。ちょっとややこしいのが
の長さが不定のため、ひとつひとつ読みながら配列に要素を追加していっています。このあたりが Optuna にがんばってほしいところで、配列などもハイパーパラメータとして扱えるようになればかなり取り回しがしやすくなると思います。実行
全体のコードは こちら にありますので、
git clone
などでダウンロードした上で、ターミナル上で$ python3 mlp.py
に保存されながら以下のような結果がターミナルに表示されるはずです。[I 2019-05-27 15:26:18,496] Using an existing study with name 'mlp' instead of creating a new one. -- Trial: 0 Current hyperparameters: The number of layers: 3 Activation function: sigmoid The number of units for each layer: [83, 80, 1] The ratio for dropout: 0.043383365517199284 -- epoch main/loss validation/main/loss 100 0.131512 0.123286 200 0.0594965 0.0570084 300 0.0364821 0.0299548 400 0.0196009 0.00784213 500 0.014053 0.00332701 600 0.0111817 0.0023173 700 0.00912656 0.00166577 800 0.00797004 0.00153381 900 0.006777 0.0012653 1000 0.00608755 0.00110705 1100 0.00560331 0.00109022 1200 0.00517723 0.00108871 1300 0.00489841 0.00112543 1400 0.00468537 0.00100757 1500 0.00446898 0.000979245 1600 0.00428505 0.000921101 1700 0.00424085 0.000983566 1800 0.00405002 0.000959924 1900 0.00384459 0.000955113 [I 2019-05-27 15:28:03,244] Finished trial#0 resulted in value: 0.0009551127247686964. Current best value is 0.0009551127247686964 with parameters: {'activation_name': 'sigmoid', 'dropout_ratio': 0.043383365517199284, 'layer_number': 3, 'unit_number_layer0': 83, 'unit_number_layer1': 80}. -- Trial: 1 Current hyperparameters: The number of layers: 5 Activation function: relu The number of units for each layer: [53, 87, 75, 12, 1] The ratio for dropout: 0.10755231083048578 -- epoch main/loss validation/main/loss 100 0.249045 0.225993 200 0.0869799 0.0862519 ... === Best Trial === FrozenTrial(number=1, state=<TrialState.COMPLETE: 1>, value=0.00015463905489013997, datetime_start=datetime.datetime(2019, 5, 27, 7, 15, 22, 258062), datetime_complete=datetime.datetime(2019, 5, 27, 7, 16, 59, 707008), params={'activation_name': 'sigmoid', 'dropout_ratio': 0.0032366848483553535, 'layer_number': 3, 'unit_number_layer0': 41, 'unit_number_layer1': 18}, distributions={'activation_name': CategoricalDistribution(choices=('relu', 'sigmoid')), 'dropout_ratio': UniformDistribution(low=0.0, high=0.2), 'layer_number': IntUniformDistribution(low=2, high=5), 'unit_number_layer0': IntUniformDistribution(low=10, high=100), 'unit_number_layer1': IntUniformDistribution(low=10, high=100)}, user_attrs={}, system_attrs={'_number': 1}, intermediate_values={100: 0.0697100069373846, 200: 0.04887961223721504, 300: 0.036658125929534435, 400: 0.01331155956722796, 500: 0.001735480735078454, 600: 0.00048741648788563907, 700: 0.00028684467542916536, 800: 0.0001745481313264463, 900: 0.0001783440457074903, 1000: 0.00014417021156987175, 1100: 0.00017049246162059717, 1200: 0.00015490048099309206, 1300: 0.0001087129203369841, 1400: 0.00011426526543800719, 1500: 0.0001357111832476221, 1600: 0.00020704924827441573, 1700: 0.00016470269474666566}, params_in_internal_repr={'activation_name': 1.0, 'dropout_ratio': 0.0032366848483553535, 'layer_number': 3.0, 'unit_number_layer0': 41.0, 'unit_number_layer1': 18.0}, trial_id=2)途中で
-- Trial: 98 Current hyperparameters: The number of layers: 4 Activation function: sigmoid The number of units for each layer: [22, 49, 60, 1] The ratio for dropout: 0.8962421296002223 -- epoch main/loss validation/main/loss Exception in main training loop: Trial was pruned at epoch 50.] 5.00% Traceback (most recent call last):............................] 0.00% File "/usr/local/var/pyenv/versions/3.7.3/lib/python3.7/site-packages/chainer/training/trainer.py", line 319, in runers/sec. Estimated time to finish: 0:01:00.705030. entry.extension(self) File "/usr/local/var/pyenv/versions/3.7.3/lib/python3.7/site-packages/optuna/integration/chainer.py", line 109, in __call__ raise optuna.structs.TrialPruned(message) Will finalize trainer extensions and updater before reraising the exception. [I 2019-05-27 05:59:31,203] Setting status of trial#98 as TrialState.PRUNED. Trial was pruned at epoch 50.のような出力が出ていたら、その trial は Pruning されているということで、Pruning が動いていることも確認できると思います。最適化が終わったら(20 〜 30 分ほどかかるかもしれませんので、ログを眺めつつこの記事を読み返してみるのもいいかもしれません)、下のようなグラフも表示されるはずです(タスクが単純すぎたので、多項式よりよくなっているわけではないのが世知辛いですが)。
この記事では、簡単なデータを作成して、その回帰問題に対して Optuna によるハイパーパラメータ最適化を行う方法を解説しました。Optuna は機械学習タスクのハイパーパラメータ最適化だけでなく、さまざまなブラックボックス最適化にもつかえるようなジェネラルなフレームワークだと思います。これを使いこなすことによって最適化タスクが格段に便利になることは確かだと思いますので、ぜひ使いこなして業務を効率化していきましょう!
ただし、実用上はユニットの数を層によってばらつかせることはあまりなく、中間層のユニット数は同じにすることが多いかもしれません。ここでは、Optuna のキャパシティを見るためにもあえて層ごとにユニット数を変えています。 ↩
- 投稿日:2019-05-27T14:39:27+09:00
# pip install numpyNumPyのインポート
以降のコードは、この「おまじない」が実行済みであることを前提に記述します。import numpy as npNumPy配列の作成
\vec{p} = \left( \begin{matrix} p_1 \\ p_2 \\ \vdots \\ p_n \end{matrix} \right) \qquad or \qquad \vec{p} = (p_1, p_2, \cdots, p_n)# ベクトル # P = [0 1 2 3 4 5] P = np.array([0, 1, 2, 3, 4, 5])行列(2階のテンソル)
なので以下は、m行n列の行列となる。P = \left( \begin{matrix} p_{11} & p_{12} & \cdots & p_{1n} \\ p_{21} & p_{22} & \cdots & p_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ p_{m1} & p_{m2} & \cdots & p_{mn} \\ \end{matrix} \right)# 行列 # P = [[1 2 3] # [4 5 6] # [7 8 9]] P = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])n階のテンソル
# 3階のテンソル P = np.array([[[0, 1, 2], [3, 4, 5], [6, 7, 8]], [[9, 8, 7], [6, 5, 4], [3, 2, 1]]])全ての要素が「0.」のNumPy配列
# P = [0. 0. 0. 0. 0.] P = np.zeros(5) # 行列を作成したい場合は、タプルを引数にします # P = [[0. 0.] # [0. 0.]] P = np.zeros((2, 2))未初期化のNumPy配列
使い方はzeros()と同じです。# P = [0. 0. 0. 0. 0.] P = np.empty(5) # 行列を作成したい場合は、タプルを引数にします # P = [[0. 0.] # [0. 0.]] P = np.empty((2, 2))単位行列
E = \left( \begin{matrix} 1 & 0 & \cdots & 0 \\ 0 & 1 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & 1 \\ \end{matrix} \right)とある正方行列Aがある場合、単位行列Eと行列積をとっても値が変化しない特徴があります。
A = \left( \begin{matrix} 1 & 2 \\ 3 & 4 \\ \end{matrix} \right) \qquad E = \left( \begin{matrix} 1 & 0 \\ 0 & 1 \\ \end{matrix} \right)AE = EA = \left( \begin{matrix} 1 & 2 \\ 3 & 4 \\ \end{matrix} \right)NumPyのeye()で、単位行列を作成できます。
# 引数は作成する単位行列の縦・横の大きさ # P = [[1. 0.] # [0. 1.]] P = np.eye(2)range()の様にNumPy配列を作成
NumPyのarange()を使えば、同じ様にNumPy配列を返却してくれます。# P = [0 1 2 3 4] P = np.arange(5) # P = [1 3 5 7 9] P = np.arange(1, 10, 2)NumPy配列の情報取得
# 行列 P = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]) # NumPy配列のサイズ (行のサイズ, 列のサイズ)で出力される # (3, 3) P.shape # NumPy配列の型 # dtype('int64') P.dtype合計値、最大値、最小値
# 行列 P = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]) # 合計値 # a = 45 a = np.sum(P) a = P.sum() # 最大値 # b = 9 b = np.max(P) b = P.max() # 最小値 # c = 1 c = np.min(P) c = P.min()平均値、分散、標準偏差
# 行列 P = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]) # 平均値 # a = 5.0 (45 / 9 = 5) a = np.average(P) a = P.mean() # 分散 # b = 6.666666666666667 b = np.var(P) b = P.var() # 標準偏差 # c = 2.581988897471611 c = np.std(P) c = P.std()NumPy配列に「True」が含まれるか
- 論理型の「False」
- 数値型の「0」
- 浮動小数点型の「0.0」
# bools_1 = [False False True] bools_1 = np.array([False, False, True]) # True bools_1.any() # bools_2 = [0 0.0 0] bools_2 = np.array([0, 0.0, 0]) # False bools_2.any()NumPy配列が全て「True」であるか
- 論理型の「False」
- 数値型の「0」
- 浮動小数点型の「0.0」
# bools_1 = [True True True] bools_1 = np.array([True, True, True]) # True bools_1.all() # bools_2 = [True True False] bools_2 = np.array([True, True, False]) # False bools_2.all()NumPy配列の操作
# P = [1 2 3] P = np.array([1, 2, 3]) # P_copy = [1 2 3] P_copy = P.copy() # P = [4 2 3] # P_copy = [1 2 3] P[0] = 4NumPy配列のソート
# P = [2 1 3] P = np.array([2, 1, 3]) # 昇順にソート # P_new = [1 2 3] P_new = np.sort(P) # NumPy配列のsort()メソッドを使用すると、NumPy配列自体が更新される # P = [1 2 3] P.sort() # 降順にしたい場合は、[::-1]を付けると逆順となり降順となる # P_reverse = [3 2 1] P_reverse = P[::-1]NumPy配列から重複を排除
countries = np.array(['France', 'Japan', 'USA', 'Russia', 'USA', 'Mexico', 'Japan']) # 'USA'と'Japan'は重複しているので、1つなる # countries_new = [France' 'Japan' 'Mexico' 'Russia' 'USA'] countries_new = np.unique(countries)任意の値を配列が含むか確認
判定結果は真偽値のNumPy配列として返却されます。countries = np.array(['France', 'Japan', 'USA', 'Russia', 'USA', 'Mexico', 'Japan']) # 'Sweden'は含まれていないので False # ans = [True True False] ans = np.in1d(['France', 'USA', 'Sweden'], countries)条件を満たす要素だけ処理
# P = [[1 2], # [3 4]] P = np.array([[1, 2], [3, 4]]) # 要素が3未満であれば「True」、そうでない場合は「False」を返却 # ans = [[True True], # [False False]] ans = np.where(P < 3, True, False) # 要素が3未満であれば「3」、そうでない場合はそのままの値を返却 # ans_2 = [[3 3], # [3 4]] ans_2 = np.where(P < 3, 3, P)NumPy配列の形状変換
# P = [0 1 2 3 4 5 6 7] P = np.arange(8) # 二次元以上の形状にする場合、引数はタプルで指定 # P2 = [[0, 1, 2, 3], # [4, 5, 6, 7]] P2 = P.reshape((2,4)) # P3 = [[[0, 1], # [2, 3]], # [[4, 5], # [6, 7]]] P3 = P.reshape((2,2,2)) # 一次元の形状にする場合、引数は整数型で指定 # P1 = [0 1 2 3 4 5 6 7] P1 = P3.reshape(8)ただし、NumPy配列の要素数が形状変換で指定したものと合わない場合はエラーになります。
# P = [0 1 2 3 4 5 6 7] P = np.arange(8) # ValueError: cannot reshape array of size 8 into shape (3,3) P = P.reshape(9) P2 = P.reshape((3, 3))行列の転置
A = \left( \begin{matrix} a & b \\ c & d \\ e & f \\ \end{matrix} \right) \qquad A^T = \left( \begin{matrix} a & c & e \\ b & d & f \\ \end{matrix} \right)行列積を行う場合、基本的に前の行列の列数と、後ろの行列の行数が一致している必要があります。
# P = [[1 2] # [3 4]] P = np.array([[1, 2], [3, 4]]) # PT = [[1 3] # [2 4]] PT = P.T PT = P.transpose()行列の軸(axis)の入替え
軸(axis)入替え後の新たなNumPy配列を取得できます。# P = [[1 2] # [3 4]] P = np.array([[1, 2], [3, 4]]) # 引数に入替えを行う軸(axis)を指定 # 行列の場合、行が「axis = 1」、列が「axis = 0」となります # PT = [[1 3] # [2 4]] PT = P.swapaxes(1, 0)逆行列と行列式
この際、これらの行列は行と列の数が等しい正方行列である必要があります。A A^{-1} = A^{-1}A = Eまた、行列式が「0」となる行列は逆行列が存在しません。
行列Aの行列式|A|は、以下のように求められます。A = \left( \begin{matrix} a & b \\ c & d \\ \end{matrix} \right)|A| = ad - bc逆行列が存在する場合、以下の公式にから逆行列を求めることができます。
A^{-1} = \frac{1}{ad - bc} \ \left( \begin{matrix} d & -b \\ -c & a \\ \end{matrix} \right)NumPyではlinalg.det()で行列式を、linalg.inv()で逆行列を取得できます。
# A = [[1 2] # [3 4]] A = np.array([[1, 2], [3, 4]]) # B = [[1 2] # [0 0]] B = np.array([[1, 2], [0, 0]]) # 行列式:逆行列が存在 # a = -2.0 a = np.linalg.det(A) # 行列式:逆行列が存在しない # b = 0.0 b = np.linalg.det(B) # A_1 = [[-2 1 ] # [ 1.5 -0.5]] A_1 = np.linalg.inv(A) # 行列式が「0」のため、エラーとなる # LinAlgError: Singular matrix B_1 = np.linalg.inv(B)固有値と固有ベクトル
A\vec{x} = λ\vec{x}NumPyではlinalg.eig()で固有値と固有ベクトルを取得できます。
# P = [[3 1], # [2 4]] P = np.array([[3, 1], [2, 4]]) # 戻り値evは、2つのNumPy配列から構成される ev = np.linalg.eig(P) # ev[0]が固有値 # ev[0] = [2. 5.] ev[0] # ev[1]が固有ベクトル # ev[1] = [[-0.70710678 -0.4472136 ], # [ 0.70710678 -0.89442719]] ev[1]NumPyの演算機能
引数はラジアンで指定する必要があります。# a = 0.8414709848078965 a = np.sin(1) # b = 0.5403023058681398 b = np.cos(1) # c = 1.557407724654902 c = np.tan(1)NumPy配列を引数にした場合は、全ての要素に対して三角関数を求めます。
# P = [0 1] P = np.array([0, 1]) # a = [0. 0.84147098] a = np.sin(P) # b = [1. 0.54030231] b = np.cos(P) # c = [0. 1.55740772] c = np.tan(P)平方根
# a = 2.0 a = np.sqrt(4)NumPy配列を引数にした場合は、全ての要素に対して平方根を求めます。
# P = [[1 2] # [3 4]] P = np.array([[1, 2], [3, 4]]) # P2 = [[1 1.41421356] # [1.73205081 2 ]] P2 = np.sqrt(P)自然対数の底「e」の累乗
# a = 2.718281828459045 a = np.sqrt(1)NumPy配列を引数にした場合は、全ての要素に対して、「e」の累乗を求めます。
# P = [[1 2] # [3 4]] P = np.array([[1, 2], [3, 4]]) # P2 = [[ 2.71828183 7.3890561 ] # [20.08553692 54.59815003]] P2 = np.exp(P)行列積
また、行列積を計算するためには、前の行列の列数と、後ろの行列の行数が一致していなければいけません。A = \left( \begin{matrix} a_{11} & a_{12} & a_{13} \\ a_{21} & a_{22} & a_{23} \\ \end{matrix} \right) \qquad B = \left( \begin{matrix} b_{11} & b_{12} \\ b_{21} & b_{22} \\ b_{31} & b_{32} \\ \end{matrix} \right)AB = \left( \begin{matrix} a_{11}b_{11} + a_{12}b_{21} + a_{13}b_{31} & a_{11}b_{12} + a_{12}b_{22} + a_{13}b_{32} \\ a_{21}b_{11} + a_{22}b_{21} + a_{23}b_{31} & a_{21}b_{12} + a_{22}b_{22} + a_{23}b_{32} \\ \end{matrix} \right)BA = \left( \begin{matrix} b_{11}a_{11} + b_{12}a_{21} & b_{11}a_{12} + b_{12}a_{22} & b_{11}a_{13} + b_{12}a_{23} & \\ b_{21}a_{11} + b_{22}a_{21} & b_{21}a_{12} + b_{22}a_{22} & b_{21}a_{13} + b_{22}a_{23} & \\ b_{31}a_{11} + b_{32}a_{21} & b_{31}a_{12} + b_{32}a_{22} & b_{31}a_{13} + b_{32}a_{23} & \\ \end{matrix} \right)NumPyのdot()で行列積を求めることができます。
# P1 = [[1 2 3] # [4 5 6]] P1 = np.array([[1, 2, 3], [4, 5, 6]]) # P2 = [[1 2] # [3 4] # [5 6]] P2 = np.array([[1, 2], [3, 4], [5, 6]]) # P1P2 = [[22 28] # [49 64]] P1P2 = np.dot(P1, P2) # P2P1 = [[ 9 12 15] # [19 26 33] # [29 40 51]] P2P1 = np.dot(P2, P1)前の行列の列数と、後ろの行列の行数が一致していない場合はエラーとなります。
# P1 = [[1 2 3] # [4 5 6]] P1 = np.array([[1, 2, 3], [4, 5, 6]]) # P2 = [[1 2] # [3 4] P2 = np.array([[1, 2], [3, 4]]) # ValueError: shapes (2,3) and (2,2) not aligned: 3 (dim 1) != 2 (dim 0) P1P2 = np.dot(P1, P2)NumPy配列の各要素毎にmax()を実行
# P1 = [[1 2] # [3 4] P1 = np.array([[1, 2], [3, 4]]) # P2 = [[4 3] # [2 1] P2 = np.array([[4, 3], [2, 1]]) # P = [[4 3] # [3 4] P = np.maximum(P1, P2) # P = [[3 3] # [3 4] P = np.maximum(P1, 3)NumPy配列の保存/読込み
また、既にファイルが存在する場合、ファイルを上書きして保存されます。# P = [1 2 3 4] P = np.array([1, 2, 3, 4]) # 第一引数は保存先のパスで、カレントディレクトリからの相対パスで指定 # この場合、カレントディレクトリに「numpy_array_P.npy」を作成 np.save('numpy_array_P', P)読込む際は、NumPyのload()を使用します。
読込むときは拡張子込みで指定するので、注意が必要です。# 第一引数は読込み先のパスで、カレントディレクトリからの相対パスで指定 # この場合、カレントディレクトリの「numpy_array_P.npy」を読込み # P = [1 2 3 4] P = np.load('numpy_array_P.npy')テキストファイルとして保存
また、既にファイルが存在する場合、ファイルを上書きして保存されます。# P = [1 2 3 4] P = np.array([1, 2, 3, 4]) # 第一引数は保存先のパスで、カレントディレクトリからの相対パスで指定 # この場合、カレントディレクトリに「numpy_array_P.txt」を作成 # delimiterにはデリミタを指定 # fmtには出力する際の要素のフォートマットを指定(デフォルトでは浮動小数点数型) np.savetxt('numpy_array_P.txt', P, delimiter = ',', fmt = "%d")読込む際は、NumPyのloadtxt()を使用します。
なお、保存する際に「fmt = "%d"」を付けて整数型のデータとして書き出しても、loadtxt()で読込むと浮動小数点数型となるようです。# 第一引数は読込み先のパスで、カレントディレクトリからの相対パスで指定 # この場合、カレントディレクトリの「numpy_array_P.txt」を読込み # P = [1. 2. 3. 4.] P = np.loadtxt('numpy_array_P.txt', delimiter = ',')zipファイルにして保存
既にファイルが存在する場合、ファイルを上書きして保存されます。# P = [1 2 3 4] P = np.array([1, 2, 3, 4]) # Z = [[1 2], # [3 4]] Z = np.array([[1, 2], [3, 4]]) # 第一引数は保存先のパスで、カレントディレクトリからの相対パスで指定 # この場合、カレントディレクトリに「numpy_array_P.npz」を作成 # Pを「data_P」、Zを「data_Z」というキーで保存 np.savez('numpy_array_P.npz', data_P = P, data_Z = Z)読込む際は、NumPyのload()を使用します。
# 第一引数は読込み先のパスで、カレントディレクトリからの相対パスで指定 # この場合、カレントディレクトリの「numpy_array_P.npz」を読込み P_load = np.load('numpy_array_P.npz') # P_load["data_P"] = [1 2 3 4] P_load["data_P"] # P_load["data_Z"] = [[1 2], # [3 4]] P_load["data_Z"]NumPyのその他の機能
生成された乱数は、NumPy配列として返却されます。# random.randn()は、乱数を引数の数だけ生成 # R = [-1.22495236 -0.14216022 0.48902831] R = np.random.randn(3)格子(グリッド)を作成
生成された格子(グリッド)はNumPy配列として返却され、グラフをプロットする際などに使用できます。# points = [-2 -1 0 1] points = np.arange(-2, 2, 1) # dx = [[-2, -1, 0, 1], # [-2, -1, 0, 1], # [-2, -1, 0, 1], # [-2, -1, 0, 1]] # # dy = [[-2, -2, -2, -2], # [-1, -1, -1, -1], # [ 0, 0, 0, 0], # [ 1, 1, 1, 1]] dx, dy = np.meshgrid(points, points)おわりに
- 投稿日:2019-05-27T14:03:56+09:00
- pythonでjsonを扱うとき、
はdictやlistを返す。- できれば、
とかアトリビュートとしてアクセスしたい。- そのまま任意のクラスに割り当てて、データと振舞いを持つオブジェクトを組み立てたい。
例えばこんなjsonを…{ "value1" : "string value 1", "nested" : { "value" : "nested value 1" } }こんなクラスのインスタンスにしたいと思います。1
# テスト用クラスその1 class TestObject: def test_method(self): return 'TestObject.test_method' # テスト用クラスその2 class NestedObject: def test_method(self): return 'NestedObject.test_method'そこで、jsonのキーとクラスを結びつける、こんなdictを用意します。
object_mapping = { 'nested' : NestedObject }jsonの最上位のオブジェクトはキーを持たないので、別の方法で指定します。
builder = ObjectBuilder(root_class=TestObject, mapping=object_mapping) result = builder.build(dict_data)そして、このクラスの実装はこんな感じです。
objectbuilder.pyclass ObjectBuilder: def __init__(self, *, root_class, mapping): self.root_class = root_class # 最上位のクラス self.mapping = mapping # マッピング定義 # 変換の起点になるメソッド def build(self, src): # jsonの最上位はオブジェクト以外にリストになることがある if not isinstance(src, list): root_instance = self.root_class() self.build_object(root_instance, src) else: root_instance = [] self.build_sequence(root_instance, src, self.root_class) return root_instance # オブジェクトの処理 def build_object(self, current, src): for key, value in src.items(): if key not in self.mapping: # マッピングに定義されていないものは、アトリビュートとして扱う setattr(current, key, value) else: func = self.mapping[key] setattr(current, key, self.build_value(value, func)) return current # リストの処理 def build_sequence(self, current, src, func): for value in src: current.append(self.build_value(value, func)) return current # build_objectとbuild_sequenceで使うもの def build_value(self, value, func): if isinstance(value, dict): result = self.build_object(func(), value) elif isinstance(value, list): result = self.build_sequence([], value, func) else: result = func(value) return resultなんのことはない、相変わらずの素直な力技ですが、こんな動きをします。
- buildの引数がdictではなくlistだった場合は、root_classのリストを生成します。
- また、マッピングに指定されていないキーは、処理中のクラスのアトリビュートとして設定されます。2
- dictやlistがマッピングに指定されていない場合、そのままdictやlistで取り込みます。3
test_objectbuilder.pyimport unittest import json from objectbuilder import ObjectBuilder # テスト用クラスその1 class TestObject: def test_method(self): return 'TestObject.test_method' # テスト用クラスその2 class NestedObject: def test_method(self): return 'NestedObject.test_method' # 相互変換のテスト用 def default_method(item): if isinstance(item, object) and hasattr(item, '__dict__'): return item.__dict__ else: raise TypeError class ObjectBuilderTest(unittest.TestCase): # ルートになるクラスのプロパティを設定するだけ def testObject(self): dict_data = json.loads('''{ "value1" : "string value 1" }''') builder = ObjectBuilder(root_class=TestObject, mapping={}) result = builder.build(dict_data) self.assertEqual(result.value1, 'string value 1') # 生成したクラスのメソッドを呼んでみる self.assertEqual(result.test_method(), 'TestObject.test_method') # ネストしたクラスを生成する def testNestedObject(self): # jsonのキーとクラスをマッピングするdict object_mapping = { 'nested' : NestedObject } # 生成元のソース dict_data = json.loads('''{ "value1" : "string value 1", "nested" : { "value" : "nested value 1" } }''') builder = ObjectBuilder(root_class=TestObject, mapping=object_mapping) result = builder.build(dict_data) self.assertEqual(result.value1, 'string value 1') self.assertIsInstance(result.nested, NestedObject) self.assertEqual(result.nested.value, 'nested value 1') # マッピングを指定しない場合はただのdict def testNestedDict(self): # 生成元のソース dict_data = json.loads('''{ "value1" : "string value 1", "nested" : { "value" : "nested value 1" } }''') builder = ObjectBuilder(root_class=TestObject, mapping={}) result = builder.build(dict_data) self.assertEqual(result.value1, 'string value 1') self.assertIsInstance(result.nested, dict) self.assertEqual(result.nested['value'], 'nested value 1') # リストの処理 def testSequenceProperty(self): mapping = { 'nestedObjects' : NestedObject, } source_dict = json.loads('''{ "value1" : "string value 1", "nestedObjects" : [ { "value" : "0" }, { "value" : "1" }, { "value" : "2" } ] }''') builder = ObjectBuilder(root_class=TestObject, mapping=mapping) result = builder.build(source_dict) self.assertEqual(result.value1, 'string value 1') self.assertEqual(len(result.nestedObjects), 3) for i in range(3): self.assertIsInstance(result.nestedObjects[i], NestedObject) self.assertEqual(result.nestedObjects[i].value, str(i)) # ルート要素自体がリストの場合 def testSequenceObjects(self): source_list = json.loads('''[ { "value" : "0" }, { "value" : "1" }, { "value" : "2" } ]''') builder = ObjectBuilder(root_class=TestObject, mapping={}) result = builder.build(source_list) self.assertIsInstance(result, list) self.assertEqual(len(result), 3) for i in range(3): self.assertIsInstance(result[i], TestObject) self.assertEqual(result[i].value, str(i)) # jsonとクラスを相互に変換する def testDecodeToEncode(self): # jsonのキーとクラスをマッピングするdict object_mapping = { 'nested' : NestedObject } # 生成元のソース - 比較の都合のため一行で string_data = '{"value1": "string value 1", "nested": {"value": "nested value 1"}}' dict_data = json.loads(string_data) builder = ObjectBuilder(root_class=TestObject, mapping=object_mapping) result = builder.build(dict_data) dump_string = json.dumps(result, default=default_method) self.assertEqual(dump_string, string_data) # 再変換しても結果が同じこと result = builder.build(json.loads(dump_string)) self.assertEqual(result.value1, 'string value 1') self.assertIsInstance(result.nested, NestedObject) self.assertEqual(result.nested.value, 'nested value 1') # 型変換にも使ってみる - jsonでstringな値をintに def testPropertyTypeConvert(self): mapping = { 'value' : int, } source_dict = { 'value' : '1024', } builder = ObjectBuilder(root_class=TestObject, mapping=mapping) result = builder.build(source_dict) self.assertEqual(result.value, 1024) if __name__ == '__main__': unittest.main(verbosity=2)
が必要です。 ↩jsonに存在が必須ではないキーがある場合、そのキーが存在しないとアトリビュートが存在せず、アクセスするとAttributeErrorになります。頻繁にアクセスするアトリビュートに関しては、クラスの
で適当な初期値を作成してあげた方がいいと思います。 ↩実はこの実装には小さなバグがあって、マッピングに定義されていないdictの中は、マッピングに定義されたキーがあってもマッピングを適用しません。これが問題になる構造はあまりきれいな形ではないので、このままです。また、dictやlistをそのまま取得した場合、元のdictと同じdictへの参照になるので、変換元のdictはすぐに破棄することを強くお勧めします。 ↩
マッピングの値として指定するのはクラスでなくてもCallableな存在なら問題ないので、状況に応じて別のクラスを返すような、ファクトリ的なメソッドを渡しても良いと思います(試してないけど)。 ↩
DynamoDBの検索結果を止むを得ず集計しなきゃいけない場合とか、集計メソッドを持つクラスに読み込んであげる。なんてことができるかも。 ↩
- 投稿日:2019-05-27T12:03:01+09:00
Jupyter Notebookなどを利用しているとたまに遭遇しますが、
すると、'e'(= exponential)を使った科学的な表現になることがあります。
直感的に比較しにくくて、読みにくいですよね。(これのほうが慣れている人もいるかと思いますが)df['some_column'].describe() --- count 2.143000e+03 mean 1.683770e+04 std 8.833939e+04 min 0.000000e+00 25% 0.000000e+00 50% 2.200000e+03 75% 1.140000e+04 max 3.160000e+06いまいちイメージしにくいので、なんとかしたい。
この記事では、2つの方法を紹介します。方法1: あらかじめオプションで設定しておく
pd.options.display.float_format = '{:.2f}'.format df['some_column].describe() --- count 2143.00 mean 16837.70 std 88339.39 min 0.00 25% 0.00 50% 2200.00 75% 11400.00 max 3160000.00オプションであればプロジェクト全体に適用できるので、常にフォーマットされていていい感じです。
方法2: フォーマット処理を追加する
の後ろで、フォーマットする処理をapplyしてあげます。df['some_column'].describe().apply(lambda x: format(x, 'f')) --- count 2143.000000 mean 16837.697154 std 88339.385512 min 0.000000 25% 0.000000 50% 2200.000000 75% 11400.000000 max 3160000.000000必要なときだけフォーマットしたい場合には良さそうですね。
python - dataframe.describe() suppress scientific notation - Stack Overflow以上!
- 投稿日:2019-05-27T11:39:08+09:00
半歩ずつ進める機械学習 ~scikit-learnボストン住宅価格編~⑥
from sklearn.datasets import load_boston from sklearn import preprocessing from sklearn.model_selection import train_test_split import optuna from sklearn.metrics import r2_score import pandas as pd #データをロード boston = load_boston() #説明変数(特徴量) env_data = pd.DataFrame(boston.data,columns = boston.feature_names) #目的変数 price_data = boston.target #標準化の為のスケーラー sc = preprocessing.StandardScaler() #トレーニングデータとテストデータに8:2で分割 train_x,test_x,train_y,test_y = train_test_split(env_data,price_data,train_size=0.8,random_state = 1) #説明変数のデータを標準化(トレーニング・テスト共に) train_z = sc.fit_transform(train_x) test_z = sc.transform(test_x)今回は、適当に抜き出した20%のテストデータに対する精度を比較します
- LinearRegression
- RidgeRegression
- LassoRegression
- ElasticNet
def objective(trial): param_alpha = trial.suggest_loguniform("alpha",0.01,0.99) rg = Ridge(alpha = param_alpha) rg.fit(train_z,train_y) y_pred = rg.predict(test_z) return -r2_score(test_y,y_pred) study.optimize(objective,n_trials=100)これでOptunaが100回色んなパラメータを試して、最もいい結果を教えてくれます。
※LinearRegressionはパラメータ調整不要です。#LinearRegressionのスコアと回帰係数 0.7634174432138474 [-1.02670073 1.35041325 0.12557673 0.57522815 -2.28609206 2.13083882 0.12702443 -3.17856741 2.64730569 -1.87781254 -2.14296387 0.6693739 -3.92551025] #Ridgeの最適なパラメータとスコアと回帰係数 {'alpha': 0.25656679388194054} 0.7634194135089943 [-1.0237994 1.34354031 0.11764531 0.57630209 -2.27619676 2.13460282 0.12424175 -3.16811722 2.6219629 -1.85414075 -2.14044692 0.66931952 -3.92023612] #Lasso {'alpha': 0.010047112511124178} 0.7631170706450768 [-0.99831839 1.29174495 0.0293067 0.5775133 -2.20104366 2.14914265 0.0814358 -3.131492 2.44517928 -1.6796851 -2.12150588 0.65885479 -3.90137101] #ElasticNet {'alpha': 0.010084492155669412, 'l1_ratio': 0.4619694446057495} 0.7631062567225662 [-0.99066052 1.26917972 0.02116619 0.58431576 -2.16642431 2.16897669 0.08409038 -3.070708 2.35999211 -1.6083605 -2.11246275 0.66417315 -3.87096163]当たり前の事かもしれませんが、どれも殆ど変わりませんね
#SVRのスコアとパラメータ {'C': 29.66829387885759, 'epsilon': 2.671890919549504} 0.9361811123936056CはSVRの正則化項の強度を調整するパラメータです(高い程正則化の強度が弱くなる)
#xgboost {'max_depth': 25, 'learning_rate': 0.33418368822954464} 0.9314838487998569探索したパラメータは2個だけですが、SVR同様かなり高いスコアが出ています。
- 投稿日:2019-05-27T11:37:25+09:00
stoksnames +-------+--------------+------+-----+---------+-------+ | Field | Type | Null | Key | Default | Extra | +-------+--------------+------+-----+---------+-------+ | id | int(11) | NO | PRI | NULL | | | name | varchar(100) | YES | | NULL | | +-------+--------------+------+-----+---------+-------+ prices +--------+---------+------+-----+------------+-------+ | Field | Type | Null | Key | Default | Extra | +--------+---------+------+-----+------------+-------+ | id | int(11) | NO | PRI | 0 | | | date | date | NO | PRI | 0000-00-00 | | | open | int(11) | YES | | NULL | | | high | int(11) | YES | | NULL | | | low | int(11) | YES | | NULL | | | close | int(11) | YES | | NULL | | | volume | int(11) | YES | | NULL | | | fixed | int(11) | YES | | NULL | | +--------+---------+------+-----+------------+-------+実行結果
names +------+-------------------------------------------------------- | id | name +------+-------------------------------------------------------- | 1301 | (株)極洋 | 1305 | ダイワ 上場投信-トピックス | 1306 | TOPIX連動型上場投資信託 | 1308 | 上場インデックスファンドTOPIX | 1309 | 上海株式指数・上証50連動型上場投資信託 . . . prices +------+------------+------+------+------+-------+--------+-------+ | id | date | open | high | low | close | volume | fixed | +------+------------+------+------+------+-------+--------+-------+ | 1301 | 2019-05-07 | 2742 | 2786 | 2742 | 2783 | 22200 | 2783 | | 1301 | 2019-05-08 | 2777 | 2780 | 2745 | 2774 | 23200 | 2774 | | 1301 | 2019-05-09 | 2762 | 2772 | 2716 | 2722 | 25800 | 2722 | | 1301 | 2019-05-10 | 2725 | 2740 | 2690 | 2690 | 42900 | 2690 | | 1301 | 2019-05-13 | 2690 | 2826 | 2656 | 2786 | 75600 | 2786 | | 1301 | 2019-05-14 | 2712 | 2818 | 2686 | 2810 | 50800 | 2810 | | 1301 | 2019-05-15 | 2806 | 2824 | 2766 | 2824 | 35500 | 2824 | | 1301 | 2019-05-16 | 2824 | 2888 | 2811 | 2851 | 55600 | 2851 | | 1301 | 2019-05-17 | 2852 | 2887 | 2833 | 2884 | 37300 | 2884 | | 1301 | 2019-05-20 | 2894 | 2908 | 2850 | 2853 | 16000 | 2853 | | 1301 | 2019-05-21 | 2849 | 2856 | 2808 | 2821 | 26900 | 2821 | . . .
- 投稿日:2019-05-27T09:41:48+09:00
亀を表示するコードimport turtle kame = turtle.Turtle() kame.shape("turtle")実行
import turtle kame = turtle.Turtle() kame.shape("turtle") kame.ondrag(kame.goto)結果
import turtle kame = turtle.Turtle() kame.shape("turtle") gamen = turtle.Screen() gamen.delay(0) kame.ondrag(kame.goto)結果
import turtle kame = turtle.Turtle() kame.shape("turtle") gamen = turtle.Screen() gamen.delay(0) def dragKame(x, y): kame.ondrag(None) kame.goto(x, y) kame.ondrag(dragKame) kame.ondrag(dragKame)結果
import turtle kame = turtle.Turtle() kame.shape("turtle") gamen = turtle.Screen() gamen.delay(0) coordList = [] def dragKame(x, y): global coordList coordList.append({'x': x, 'y': y}) def moveKame(): global coordList while(len(coordList) > 0): coord = coordList.pop(0) kame.goto(coord['x'], coord['y']) gamen.ontimer(moveKame, 0) kame.ondrag(dragKame) gamen.ontimer(moveKame, 0)結果
import turtle kame = turtle.Turtle() kame.shape("turtle") gamen = turtle.Screen() gamen.delay(0) coordList = [] isMove = False def dragKame(x, y): global coordList global isMove coordList.append({'x': x, 'y': y}) if not isMove: isMove = True gamen.ontimer(moveKame, 0) def dropKame(x, y): global isMove isMove = False def moveKame(): global isMove global coordList while(len(coordList) > 0): coord = coordList.pop(0) kame.goto(coord['x'], coord['y']) if isMove: gamen.ontimer(moveKame, 0) kame.ondrag(dragKame) kame.onrelease(dropKame)結果
- 投稿日:2019-05-27T08:34:09+09:00
プロ野球の打者成績を毎日自動投稿するtwitter botを作る
プロ野球の成績(打率や打点など)を毎日自動で投稿するtwitter botを作っていきます.
1. twitterへの投稿
2. webスクレイピング
3. 定期的な自動投稿参考
使用する技術に関しては記事にしていますので, 適宜参照してください.
1. twitterへの投稿 -TweepyでTwitterに投稿する
2. webスクレイピング -pythonでwebスクレイピング
3. 定期的な自動投稿 -scheduleライブラリで定期的にTwitterの検索andいいね実践
とりあえずセリーグのみです.# -*- coding: utf-8 -*- import requests from bs4 import BeautifulSoup import tweepy import schedule import time # 先ほど取得した各種キーを代入する CK="Consumer Key" CS="Consumer Secret" AT="Access Token" AS="Access Token Secret" # Twitterオブジェクトの生成 auth = tweepy.OAuthHandler(CK, CS) auth.set_access_token(AT, AS) api = tweepy.API(auth) def job(): # ループ用word words = ['打率', '本塁打', '打点', '盗塁', '失策'] for word in words: # URL指定用の辞書 web_dic = {'打率':1, '本塁打':9, '打点':13, '盗塁':20, '失策':22} # 成績index指定用の辞書 list_dic = {'打率':3, '本塁打':10, '打点':12, '盗塁':19, '失策':26} # 成績指定 seek = str(word) web_num = web_dic[seek] list_num = list_dic[seek] # URL指定 url = "https://baseball.yahoo.co.jp/npb/stats/batter?series=1&type="+str(web_num) # Responseオブジェクト生成 response = requests.get(url) # 文字化け防止 response.encoding = response.apparent_encoding # BeautifulSoupオブジェクト生成 soup = BeautifulSoup(response.text, "html.parser") # 取得した情報を書き込む用のファイル f = open('grade.txt', 'w') # タグを取得 elems = soup.find_all("div", id='odr_play') # 順にファイルへ書き込み for i in elems: f.write(i.text) f.close() ### 以下, 取得した情報を整理しているのみ grade = [[] for i in range(10)] f = open('grade.txt', 'r') lines = f.readlines() flag =False f.close() num = 0 grade[0].append('1') check = '2019年' for line in lines: line = line.strip() if line == '': continue elif check in line: start = line.find('2') # 最初の文 end = line.find('新') # 最後の文 date = line[start:end+1] # 更新日を格納 elif num > 9: break elif flag == True: grade[num].append(line) if len(grade[num]) == 27: num = num+1 elif line == str(1): flag = True print('セリーグ'+str(seek)+'順位') print(date) tweet = [] for i in range(10): print(str(grade[i][0])+" "+str(grade[i][1])+str(grade[i][2])+" "+grade[i][list_num]) tweet.append(str(grade[i][0])+" "+str(grade[i][1])+str(grade[i][2])+" "+grade[i][list_num]) # 好きな言葉をツイート api.update_status('【セリーグ'+str(seek)+'順位】'+'\n'+str(date)+'\n'+tweet[0]+'\n'+tweet[1]+'\n'+tweet[2]+'\n'+tweet[3]+ '\n'+tweet[4]+'\n'+tweet[5]+'\n'+tweet[6]+'\n'+tweet[7]+'\n'+tweet[8]+'\n'+tweet[9]) schedule.every().day.at("23:59").do(job) while True: schedule.run_pending() time.sleep(1)実行しておくと, 毎日自動で更新してくれます.
パリーグに関しても, URLに少し変更を加えるだけです.
これをベースにして, 投手成績バージョンも作ってみようと思います.
- 投稿日:2019-05-27T01:42:39+09:00
画像処理100本ノックにJavaScriptで挑戦してみた 【画像処理100本ノックJS】
「ブラウザ上で完結させたい」 & 「デモを共有できたら面白い」という動機ではじめました。
画像処理が初めての人のための問題集をつくったりました。(完成!!) 研究室の後輩用に作ったものです。 自然言語処理100本ノックがあるのに、画像処理のがなかったので作ってみました。 画像処理の基本のアルゴリズム理解につながると思います。 https://qiita.com/yoyoyo_/items/2ef53f47f87dcf5d1e14この「画像処理100本ノック」にはPythonとC++のコードが解答例として用意されています。
デモの例 ※ → デモ はこちらから(Gasyori100KnockJS)
※ GitHub にソースを置いてます。
<canvas id="canvas"></canvas>// canvas関連のオブジェクト const canvas = document.getElementById("canvas") const ctx = canvas.getContext("2d") // 任意の画像読み込み let image = new Image() image.src = "path/to/image.png" // 読み込み完了時のイベント image.onload = () => { canvas.width = image.width canvas.height = image.height ctx.drawImage(image, 0, 0, canvas.width, canvas.height) // canvas描画後、画像の処理を実行 }ピクセル操作
このオブジェクトにはr, g, b, a の順に画像情報が格納されています。
(canvasを用いず、Imageオブジェクトの画像情報に対して直接参照する方法があればいいんですけど... )
let src = ctx.getImageData(0, 0, canvas.width, canvas.height) let dst = ctx.createImageData(canvas.width, canvas.height) for (let i = 0; i < src.data.length; i += 4) { dst.data[i] = src.data[i] // r dst.data[i + 1] = src.data[i + 1] // g dst.data[i + 2] = src.data[i + 2] // b dst.data[i + 3] = src.data[i + 3] // a (透過度) }例えば、グレースケール画像であれば次のような処理になります。
const grayscale = (r, g, b) => 0.2126 * r + 0.7152 * g + 0.0722 * b // 略 for (let i = 0; i < src.data.length; i += 4) { let gray = grayscale(src.data[i], src.data[i + 1], src.data[i + 2]) dst.data[i] = gray[0] dst.data[i + 1] = gray[1] dst.data[i + 2] = gray[2] dst.data[i + 3] = src.data[i + 3] } ctx.putImageData(dst, 0, 0)こんな風に表示されます。
参考 : 画像をグレースケールに変換する JavaScript + canvas 【画像処理】
import Chart from "chart.js" export default class Histogram { /** * ヒストグラムを描画する * @param {Object} canvas * @param {Object} data */ static renderHistogram(canvas, data) { let labels = new Array(data.length).fill('') new Chart(canvas, { type: 'bar', data:{ labels, datasets: [ { label: '画素値', data, backgroundColor: "rgba(80,80,80,0.5)" } ], }, options: { title: { display: true, text: 'Histogram' }, scales: { yAxes: [{ ticks: { suggestedMin: 0, } }] }, animation: { duration: 0 } } }) } }import Histogram from 'path/to/Histogram' const grayscale = (r, g, b) => 0.2126 * r + 0.7152 * g + 0.0722 * b // 略 let pixelValues = new Array(255).fill(0) for (let i = 0; i < src.data.length; i += 4) { let gray = grayscale(src.data[i], src.data[i + 1], src.data[i + 2]) gary = Math.floor(gray) pixelValues[gray]++ } Histogram.renderHistogram(canvas, pixelValues)参考 : 画像のヒストグラムを表示する Char.js JavaScript canvas
まとめ : JSで挑戦するメリット・デメリット
Numpyほど簡潔に行列の処理を書くことはできません。(※今回のデモではアフィン変換などの行列演算を多用する箇所で math.js を使いました。)
画像処理100本ノックJS - GitHub
- 投稿日:2019-05-27T01:32:17+09:00
今回はアメリカの 「The Broad Institute」 が提供している、ヒト癌細胞の 「遺伝子発現データベース、CCLE」 の解析を行います。バイオビッグデータを解析していて困るのは、通常の機械学習と比べて 「データ数よりもパラメータ数の方が圧倒的に多いことが多い」 、ことです。
機械学習の大御所、 スタンフォード大学Andrew Ng先生の「Machine learning」講義でも触れられていますが、基本的には 「It's not who has the best algorithm that wins,It's who has the most data」 が示す通り、データ数が少ない場合は、機械学習の精度に大きく貢献するのはアルゴリズム云々よりも 「データ数」 の方です。
[Banko & Brill, 2001][Coursera:機械学習]
https://ja.coursera.org/learn/machine-learningでは 「どれくらいのデータ量が必要となるか」 、ということですが、上記の2001年の論文ではよく見るとX軸となるトレーニングデータセットのサイズの最小値が 0.1 millions(=100,000) となっています(!)。2001年当時はアルゴリズムが今ほど洗練されていなかったことを考慮しても、バイオデータセットで10万とか普通ムリ...これって機械学習的感覚からすると、よく囁かれる 「医学生物学論文の70%以上が再現できない」 のなんて当たり前じゃない?、だってデータセット(=モデル数)少なすぎるじゃん!、となる気がします。
私は元々バイオベースの人間なので、Andrew Ng先生のWeb講義受けて一番衝撃だったのが実はこのデータでした・・・この講義、個人的には全国の生物系大学の基礎学習課程で必須にした方がいいと思います。既存の堅固に見える生物学的ロジックが、数量的には砂上の楼閣に近いという感覚を初期に持つことは結構大事なんじゃないでしょうか・・・
(*最近は転移学習の研究も進んでいるため、Deep learningを用いて少数データ数の精度を上げよう、という流れもあると思うのですが、そのあたりはまだフォローしきれていません...)ただ、そうするとバイオインフォマティクスが全て終わってしまうので(笑)、気を撮り直してPythonの有名な機械学習ライブラリ、 「Scikit-learn」 のチートシートを見てみます。すると、一応ミニマムデータセットは 「50」 からに(ホッ)。
まあそれでも既存の生物研究のほとんどは(機械学習に適用するという意味では)消えてしまうのですが、今回の解析対象である 「CCLE」 は「1019」細胞なので、一応第一関門はクリアしたと個人的に納得して進めることにします(-0-)。
[CCLE:The Broad Institute]
そして「Data」ページの「Current Data」の項を見ると色々なデータセットがずらり・・・。
今回、遺伝子の発現情報の解析では、「RNA-seq」という手法で得られたデータを、「RSEM」というソフトウェアで解析し、「TPMカウント」にしたデータを使用します(ちなみにCCLEのLegacyデータには「Micro array」と手法で得られたデータも存在します。つまり、「遺伝子発現」と一口に言っても別種のデータが存在するんですね。これが実験科学の難しいところです)。
解凍後> CLE_RNAseq_rsem_genes_tpm_20180929.txt
解凍後> gencode.v19.genes.v7_model.patched_contigs.gtfこのうち、(2)はまあ特に取得する必要はないのですが、まあ一応念の為取得してみます。
awkを使っても良いのですが、なるべくPython純正でやりたいと思って 「GENCODE」 と呼ばれる、世界的にゲノム情報を集約しているグループのHPの一つを見てみると、 「gftparse」 と呼ばれるパッケージが使えるとの記述があったので今回はこれを使用してみます。[GTF Parsers in Other Programming Language(GENCODE)]
[参考:awk を利用した GTF ファイルの処理]
conda install -c bioconda gtfparseその後の解析はjupyter notebookで行います。
Pandasとgtfparseのread_gtfをimport。import pandas as pd from gtfparse import read_gtf次にダウンロード・解凍したgtfデータ(3)を読み込み、登録データの数・種類を見てみます。
df = read_gtf("gencode.v19.genes.v7_model.patched_contigs.gtf") print(df.shape) print(df.columns)(436245, 21) Index(['seqname', 'source', 'feature', 'start', 'end', 'score', 'strand', 'frame', 'gene_id', 'transcript_id', 'gene_type', 'gene_status', 'gene_name', 'transcript_type', 'transcript_status', 'transcript_name', 'level', 'havana_gene', 'exon_id', 'exon_number', 'tag'], dtype='object')データ数は非常に膨大ですが、このうち今回の解析で必要なデータは遺伝子のIDのみなので、「feature」の種類で「gene」を絞り込んだあと、「gene_id」、「gene_name」、のデータのみに集約します。
#featureの絞り込み df_genes = df[df["feature"] == "gene"] print(df_genes.head()) #列の絞り込み df2 = df_genes[["gene_id","gene_name"]] print(df2.shape) df2.head()#df2.head() (56238, 2)今回のデータセットでは遺伝子数が56238個のようですね。ちなみに、今回参照したCCLEのデータセットは少し古いゲノムをリファレンスとして使用しています。2019年5月現在、最新のヒトのリファレンスゲノムは「GRCh38」ですが、CCLEデータセットでは「GRCh37(UCSC version 19)」を使用しています。また、GENCODEとは別のグループに、リファレンスゲノム情報を集約している 「ENSEMBL」 がありますが、そこには過去にリリースされたリファレンスゲノムの一覧が記載されています。結構頻繁にリファレンスゲノムはupdateされているんですね。
[GENCODE: release history]
[ENSEMBL: Archives]
- 投稿日:2019-05-27T01:22:02+09:00
現代数学においても、「pointless topology」など、点を基礎概念としない幾何が追求されている。しかしペアノ曲線を非数学者でも扱いやすい読み替えようというのに、そのような最先端の数学が必要となっては本末転倒だ。
1. まず画像がカラーなら白黒にし、そのピクセルの濃さを8段階に量子化する。
2. その濃さに合わせて、ペアノ曲線の構成法で線を描き、ピクセル同士を繋いでいく。
./main.py Gioseppe_Peano.jpg
数学徒? なんだそりゃ、という人のために説明しよう。
- 投稿日:2019-05-27T01:09:20+09:00
s = "abcdeeefggh" print(s.count("e")) #出力:3 lst = ["a", "b", "b", "c", "d"] print(lst.count("b")) #出力:2min(), max()
print(min(1, 2, 3, 4, 5)) #出力:1 print(max(1, 2, 3, 4, 5)) #出力:5 print(min([1, 2, 3, 4, 5])) #出力:1 print(max([1, 2, 3, 4, 5])) #出力:5複数リストの最小を求める。
先頭から順番に各リストの要素を比較して、スコアが低いほうを返す。print(min([1,2,3], [1,1,1,2])) #[1, 1, 1, 2] print(min([1,2,3], [1,2,3,4])) #[1, 2, 3] #ない要素は比較できなので、2つの要素しか比較していない #第二引数の3つ目以降がどんな要素でも関係ない print(min([1, 2], [1, 1, 3, 3, 3, 3]) #[1, 1, 3, 3, 3, 3] min([1, 2], [1, 1, 1000000]) #[1, 1, 1000000]
- 投稿日:2019-05-27T00:52:34+09:00
FLASK routineを使ってテンプレート作成【Windows.ver】
保存名はtemplates 複数形!(templateの単数形ではないので注意)2.templates フォルダの中に
return のところで"index.html"の後にname=value=nameを追記さらにStep up!
{% if文 %}でpythonコードを記述できる{%if name_value %}
⇒この場合はHello Flaskが表示される{% else %}
Hi, This is a penと表示される{% endif %}
- 投稿日:2019-05-27T00:05:52+09:00
FLASK ~Hello Python!~と表示する【Window.Ver】
1.visual studio code に新しいフォルダ(myappという名前で保存)を作成
5.ctrlキーを押しながら、 を押すと
下記のようにブラウザが開きHello Python!と表示される
- 投稿日:2019-05-27T00:00:22+09:00
AtCoder ABC128 (Dまで)解説
AtCoder Beginer Constestの解説&反省です。
使用言語はpython。A - Apple Pie
a,p=map(int,input().split()) print((a*3+p)//2)B - Guidebook
速度面でc++には追い付かないので初心者さんはあまり鵜呑みにしないように、問題によって使い分けましょう。n=int(input()) q=[input().split()+[i]for i in range(n)] for i in range(n): q[i][1]=int(q[i][1]) p=sorted(sorted( q ,key=lambda x:x[1],reverse=1),key=lambda x:x[0]) for s,t,r in p: print(r+1)C - Switches
ABC119 Synthetic Kadomatsuの悪夢にようやく打ち勝つことができた。
まず1~nのランプを付いてる付いてないで列挙する([t>>s&1 for s in range(n)]の部分)
そしてLに突っ込んだ、何番のスイッチと対応しているのかというのを受け取り、numpyのファンシーインデックスで何番がついているかどうかを受け取って合計し、それらを2で割った余りの配列をpと比較して同じならans+=1をするで通ります。(内包表記だと二重になってめんどいかも?)from numpy import* n,m=map(int,input().split()) l=[] for i in range(m): *a,=map(int,input().split()) l.append(a[1:]) *p,=map(int,input().split()) ans=0 for t in range(2**n): tmp=array([t>>s&1 for s in range(n)]) if p==[sum(tmp[array(i)-1])%2for i in l]: ans+=1 print(ans)D - equeue
まずK<nのとき、端からとれる長さfor i range(1~k)の配列を列挙します。vの後ろにvをつけることでこれは簡単に実現できます。そしてk-i回、取得した配列から最小値を捨てることができます。
これでこの問題を解くことができました。from heapq import* n,k=map(int,input().split()) *v,=map(int,input().split()) motimono=[] ans=[] if k>=n: k-=n heapify(v) ans.append(sum(v)) for i in range(k): if len(v)>0: heappop(v) ans.append(sum(v)) print(max(ans)) else: v*=2 for j in range(1,k+1): for i in range(n-j,n+1): motimono=v[i:i+j] ans.append(sum(motimono)) heapify(motimono) for i in range(k-j): if len(motimono)>0: heappop(motimono) ans.append(sum(motimono)) print(max(ans))Eからは解け次第追加します!()