職務内容
当チームに参加するスキルのあるデータクローリングスペシャリストを募集しています。理想的な候補者は、さまざまなソースからデータを収集するためのウェブクローラーの開発と保守を担当し、高品質なデータ抽出と保存を確保します。
主な責任
- 静的ウェブページ、動的ウェブページ(JSレンダリング)、APIインターフェースデータなど、データクローリングを担当します。
- User Agentの偽装、プロキシポーリング、キャプチャバイパス、クッキー暗号化、ボディパラメータ暗号化などのアンチクローリング戦略を処理し、クローリングの成功率を向上させます。
- XPath、CSSセレクター、正規表現などの技術を使用してウェブページデータを分析し、情報を抽出します。
- MySQL、MongoDB、Redis、Selectdbなどのデータベースにデータを保存およびクロールします。
- データクリーニングと重複排除に関連するコードを記述し、データ品質を向上させます。
- クローラーの実行状況を監視し、クローリング戦略を最適化してデータクローリングの安定性を確保します。
求めるスキル
- ウェブスクレイピングおよびデータクローリング技術の実績ある経験。
- アンチクローリングメカニズムと戦略の処理に関する強力な知識。
- XPath、CSSセレクター、正規表現などのデータ抽出技術に精通していること。
- MySQL、MongoDB、Redis、Selectdbなどのさまざまなデータベースの経験。
- 効率的なデータクリーニングと重複排除スクリプトを記述する能力。
- 強力な問題解決能力と細部への注意。
- クローラーのパフォーマンスを監視および最適化する経験はプラスです。