良い○○○○は偶数サイズ

■はじめに

先日、AI(人工知能)の本を読んでいたら、将棋ソフトは三駒関係という評価手法よって劇的に強くなったとの事。3つの並びが価値を生むという事だ。
そういえばこの前、4文字熟語のランキング作ったけど特に反応無かったな。。。
とりあえず今回は、butterfly searchを使用してある特徴を持つ3つの数字の並びを抽出し、その1つ目の頻度を表にしました。(ノイズ多々ありです)

■おっぱい集計結果

抜粋


全体
まず、タイトルにある良いおっぱいとは何ですかという事ですが、これは、WIKIにあるおっぱい事。WIKIにある記事は良い記事なので、そこに存在するものは良いもの。そこで観測したおっぱいは良いおっぱい。

■最大

観測された最大値は、ミリア・ファリーナさんの415cm







■考察

まず、今回最大の気付きは良いおっぱいは偶数という点。
単純に合計しても、
偶数サイズのおっぱい:11063 回
奇数サイズのおっぱい:8140 回
これを「おっぱい偶数の法則」と名付ける。
但し、一番頻度が高いのは奇数の83cm、1852回。


■おっぱい偶数の法則

奇数サイズのおっぱいは偶数サイズに引き寄せられるとしか考えられない。
それとも1つ1つが奇数で2つ合わさるので偶数ということなのか。
なぜか?下記のようなことが起きているのかと思われる。

正規分布からのずれ大きさ考察
↑人気801つの大台。無理をしてでも到達したい感は認める。
↓不人気81下一桁の1ってなに? 中途半端がいけない。
普通82問題なし。
↑超人気83素数。神聖な感じ。おっぱい偶数理論がここで一旦破綻。
↓不人気844っていう数字のイメージが悪い。
↑人気85五十日(ごとおび)は道路も混むし、四捨五入すれば90に届く。
↑人気86helloという語呂がよい。
↓不人気87それなら88に統合。85を境に大雑把感が増すので素数のミステリアス感がない。
↑人気88ぞろ目。これは末広がりで縁起も良い。
↓不人気89一歩手前。79と80では大きく違うが89と90は同じで良い。90へ統合。
↑人気90大きすぎて雑。乱雑なおっぱいがここに集まる。

※諸説無し。(この研究は今ここで始まったばかり)


■確認(再現)方法

①wikiのテキストをダウンロードし解凍
https://dumps.wikimedia.org/jawiki/20210701/jawiki-20210701-pages-articles-multistream.xml.bz2
(7z等で解凍)

※見つからない場合は、https://dumps.wikimedia.org/jawiki/からたどってみて下さい。

②butterflr search(Ver3.00) でインデックスを作る(PCのスペックにもよるが10時間くらいかかるでしょう)


③メニューから表示―検索キーの状態―画面を表示



④BFTIME2* を検索

※10分くらいかかります


⑤Ctrl+Aで選択し、Ctrl+Cでコピーする。



⑥エクセル等にはりつけ

BFTIME2_088055087_00006610_00001226_00110017
の場合は、088がバスト、055がウエスト、087がヒップを表す。それ以外は検知した位置なので気にしなくて良い。

以上です。


その他 

一覧を見たい場合は、SHIFTを押しながら「日時」を押下

クリックすると検知位置に飛びます




















■仕組み

雑に言うと、
(B)([ :]{0,2})([0-9]{2,4})([^a-zA-Z]{0,6})W[ :]{0,2}([0-9]{2,4})([^a-zA-Z]{0,7})H[ :]{0,2}([0-9]{2,4})
のような正規表現を使って、スリーサイズじゃないか?という文字列を片っ端からインデックスに落とし込んでいます。なので誤検知や漏れもあります。
ご了承ください。


コメント

このブログの人気の投稿

よく使われる四文字熟語ランキング

butterfly search 4.1 をリリースしました。