PHPで二次元画像自動収集ツール作ってまとめサイト公開してたけどなにか質問有る?back

PHPで二次元画像自動収集ツール作ってまとめサイト公開してたけどなにか質問有る?


続き・詳細・画像をみる


こういったこと初めてだから、うまく出来るかわかりませんが。
質問がありましたら答えていきます。
3:
エ□集めろ
4:
>>3
エ□画像も萌え画像も含め、両方の画像を自動収集してます。
5:
なにか質問を想定してスレ建てたんだよね???
6:
>>5
いえ、なにか面白そうだからと言うだけだったりもします。
7:
PHPとかいう糞言語が覇権握ってる現状激おこプンプン丸ですぞ
8:
>>7
クソ言語使っちゃってすみません orz
全くの素人が取っ付き易い言語ということで耳にしたもので。
9:
どうやって画像ファイルがエ□画像かどうか判別してるの?
10:
>>9
エ□画像かどうかは、判別は行ってません。
二次元画像かどうかは、収集先を絞りつつ、その後にノイズである3次元画像を排除してます。
ただ、精度の方は低いので3次元画像が混ざりに混ざってしまってる現状です。
11:
>>10
2次元と3次元はどうやって判別してるの?
12:
>>11
基本的には、二次元画像が投稿されるサイト(掲示板)などを定期的にクロールしてます。
その際に、前後の文章の流れやタイトルから画像の種類を大雑把に分類してます。
それしか行っていないのが、精度が低い原因です。
13:
PHP学び始めてどのぐらいの期間で
「あ、オレものになったな」って思うようになった?
14:
>>13
サイトの作成も含めて、同時進行で他のことも学びながら行ったのではっきりとは言えませんが。
1ヶ月少しでサイトが完成させられた時には最低限ものになったな!とか思いました。
でも実際は、まだまだな事には後々気が付きましたが。
それでも、HTML+CSS+DB+PHP+Ajaxを一から学びながら1ヶ月少し、長く見て2ヶ月ほどで
完成させられたので、PHPは取っ付き易い良い言語なのかなとおもいました。
否定派の方も居るようですが...
15:
どこから収集してんの?google?
17:
>>15
収集先は、幅広いですが、Googleの他、掲示板やまとめサイトの情報をこねくり回す形です。
16:
公開してたけどって過去形になってるけど
何故止めたの?
19:
>>16
正確には、現在も公開して入るのですが以前と方式を変えました。
一度停止した理由は、サーバの維持が行えなくなったことが原因でした。
また、以前は全て自分で書いたコードにより公開していたのですが、サーバの移転を行いまして。
その流れで、メインをWordPressにして現在も公開中です。
人は殆ど来ていないようなので、ほぼ自分用サイトに成ってます。
18:
月収はどんなもんだった?
20:
>>18
ほぼ収益が無く、維持費を考えると赤字でしたので一時閉鎖という流れに つД`)・゚・。・゚゚・*:.。..。.:*・゚
なにせ、利用者がほぼいなかったものでして。
21:
維持費って月いくらくらいだったの?
22:
>>21
細かい数字はわかりませんが1万円位でした。
さらに、初期設備に書けたお金もプラスされる形で。
24:
>>22
そりゃサイト収入がないと維持はしんどいわな
で、自己分析でサイトに人が来なかった理由は?
26:
>>24
サイトに人が来なかった理由は細かい所は色々と考えられますが。
・強豪相手が多い中宣伝されていない
・利用者の共有ができていない
等、他人に責任を押し付けることも出来ますが。
何より、表示が遅い事や、他の義類サイトと比較した場合にメインとなる要素が薄すぎる.
結果として,コア資産となるものがZIPのDLと自動収集される結果として画像数が多い.
また,自前サーバと言う事で,他のレンタルブログでは定期的に消去されてしまう過去の画像が残り続ける.
等しか誇れる点がなかったところと考えています.
29:
>>26
なんと自前でサーバを立ててたのか すごい!
表示が遅かった原因はどんなことが考えられる?
32:
>>29
はい,自前でサーバを立てて運用を行ってました.
楽しかったです.
表示が遅くなった原因...
おそらく,サーバの設定が甘々で画像ばかりのサイトなのに読み込みが頻繁に起きること.
これは,キャッシュなどで対応するべきだったなと.
また,ど素人の書いたPHPでDBにアクセスしまくっていたのも大きい原因かと.
フレームワークの存在を知らなかったものですべてガリガリとコーディングを行いました.
それで,非効率な処理が多かったはずです.
ほかも,考えられる点は幾つかあるとは思いますが,主な原因はこの変かなと.
23:
http://5pocket.net/
このサイトの人?
このサイトの人も鯖代赤字だから撤退するって言ってた
すげぇ技術だから感心した
25:
>>23
こんな凄いサイトの人ではありません。
もっとチンケなサイトです。
このサイトは、ブックマークさせてもらいます。
28:
最終的に収集した画像は
何ファイル何GBになったの?
整理できてる?
31:
>>28
ハッキリとは記憶しておりませんが,25Gは超えていました.
ただ,その中に重複画像が混ざっていますので上手い事消去できれば節約できるのになと思っています.
33:
ぶっちゃけ、日本の萌え二次画像で品質高いのは
Danbooru系サイトのRSS監視してればほぼ網羅できるよな
RSSからDLにうまく繋げる方法が今の自分には無いんだけどね
34:
>>33
そうですね.
私も,一部はRSS監視を行いそこから引き抜く作業を行わせています.
RSS取得を行い,その先のHTMLを解析させ画像ファイルのみを抜き出しています.
35:
二次元画像以外に興味のある画像の分野は他にないの?
37:
>>35
興味だけですと,軍事関係の画像とか,機械の画像に興味はあります.
美しい機械はゾクゾクします.
ただ,収集系で範囲を広げるつもりはありませんが.
36:
どうでもいいけど
文章の区切りに句読点使わずピリオドとカンマ使うのは何で?w
38:
>>36
たしかにどうでもいいけどw
いわれてみれば気になるなw
39:
>>36
IMEが途中で変わってしまっていたようです。
区切りが,.の設定のIMEは横書きの論文を記述する時のためのものです。
40:
今はWordPressで引き継いでいるって書いてあったけど
それも自動化されてるの?
42:
>>40
今も、フロント部分はWordPressに引き継いでもらっていますが
バックエンドは引き続き自動化されています。
引き継ぎ作業として、今までのプログラムに投稿プログラムを追加してそちらも走らせ続ける形です。
41:
自分の知っている範囲で極めて優れていると思った
主にPHPで構成されているサイトをひとつ教えてください
44:
>>41
PHPで構成していたか忘れてしまいましたが、私が触発されて作る切っ掛けとなったのは
ゆーすけべーさんのサイトです。
でも確か、あの方はPerlだった気もしますが。
43:
サイト収入についてはどういう考え?
作るのが楽しくてあったらいいなという程度?
それともかなりメインの方針?
45:
>>43
サイト収益は、利益に成ればたしかに嬉しいのですが。
それ以上に作るのが楽しかったりするので正直どうでもいいです。
ただ、流石に赤字幅が大きいと趣味としても辛いところでもあります。
なので、±0になれば良いなと。
収益が出れば、技術力向上への投資もしやすくなるのでそれなりに広告を
貼り付けてはいますが。
46:
プログラム的に次に挑戦していきたい事は何?
48:
>>46
いくつかありますが
今のサイトの中では...
・同一画像を見つけ出し、解像度の低いもの等の質が悪いものを消し統一化
コレにより、容量の削減を行う
・画像解析を行い、二次元なのか、三次元なのかの判別を行う
・記事単位ではなく、画像単位での人気度の集計などを行いランキング化
別サイトとして
・嫁の名前を登録することで、その嫁の特徴を幾つか抽出を行いそれに対して
別の特徴を足し引きすることで別のお勧めキャラを発掘してくれるサイトを。
と思ったところで、某ランプのおじさんに近いことに気が付き廃案にした形です。
47:
URLは?
49:
>>47
URLは下記のものになります。
もし宜しければ、利用していただけると。
そして、維持費をまかなえると嬉しいなと思ったりです。
http://sub0000528116.hmk-temp.com/wordpress/
ドメインは、なるべく維持費を抑えるために標準のものを利用してますので
見苦しいかもしれませんが。
その他何かアドバイス等ありましたらよろしくお願いします。
50:
オレ非エ□しか見ないからエ□と非エ□のカテゴリ分けといて
カテゴリ分けておいてくれれば非エ□のRSSだけ修得するわ
52:
>>50
以前のサイトの時は、カテゴリ分けしてたのですが今は統一化してしまいました。
ヤハリ、カテゴリは分けられていたほうが利用しやすいのですね。
エ□と非エ□を区別する精度が異常に低く混入するので精度の向上を図るところから始めてみようと思います。
54:
>>52
というか、カテゴリ分けておいてくれると修得するRSS選べるっていう事自体の知名度が低いだけ
サイトによっては政治と萌え画像とオカルトとごっちゃに掲載してるのにカテゴリ分けてなかったりするからね
萌え画像の記事しか見ないっつーの
56:
>>54
分けれる限りのカテゴリを画像解析を行って自動でRSS配信する機能の作成を頑張らせてもらいます。
51:
そうや!
非エ□な二次元ならオレも見たい!
53:
>>50-51
アドバイスありがとうございます。
私がエ□エ□な結果ソフトまでエ□く(*ノω・*)
現実的な方法としては、投稿単位に肌色成分で分別を行い
その結果引っかかったものをエ□にしてしまえば、一部非エ□もエ□へ流れてしまいますが
セーフネットとして働くかなと考えましたので、近いうちに対応させようかと思います。
56:

続き・詳細・画像をみる


クソ親父が2千万円の借金がしてたことが発覚

【画像】NMB48薮下柊(15)のエロい水着姿wwwwwwwおいおいおいwwwwww

ミハイル・シューマッハ、永き昏睡から目覚める

【中国】なんでこーなった!?またもや奇妙な建物 下半分コンクリ上半分住居のビル

【画像】ブラックマジシャンガールのおっぱいwwwwwww

小鳥「愛ちゃん」

back 削除依頼&連絡先